Inteligencia de datos

El cubo de análisis y más allá

Corporación Actian

14 de abril de 2016

luces azules saliendo de una esfera

La ingeniería de Big Data ha inventado un número aparentemente interminable de soluciones alternativas. Se trata tanto de problemas de escalabilidad como de rendimiento. En última instancia, nuestro enfoque para resolver estos problemas dicta lo sostenibles que serán. Este post compara algunas de las mejores prácticas modernas con entornos de cubos de preprocesamiento.

3 formas en que una base de datos Hadoop compite con Cube Analytics

  • El diseño del software triunfa sobre el preprocesamiento.
  • La capacidad de gestion des données es crucial.
  • Explosión de los datos de control y complejidad de las plataformas.

Los motores Cube(OLAP) para analizar almacenes de datos no son nada nuevo, pero aplicarlos en las arquitecturas distribuidas actuales de gestion des données sí lo es. En este artículo se comparan las bases de datos analíticas SQL de haute performance con las analíticas de cubos en el entorno distribuido actual.

Las plataformas de cubos empresariales ayudan a los usuarios a navegar fácilmente por cantidades masivas de datos. Sin embargo, ahora que el sistema operativo para el análisis de datos se mueve hacia una arquitectura informática masivamente paralela con fuentes de datos distribuidas, puede resultar confuso saber si el análisis basado en cubos le ayudará o no en su próximo proyecto.

Hadoop por sí mismo ofrece poca ayuda para obtener análisis de haute performance nada más sacarlo de la caja. Aunque se puede obtener un acceso transparente a una amplia variedad de datos, a menudo se sacrifica el rendimiento y otras características críticas como la gestion des données y el control de la expansión de datos, tres componentes clave para dominar el lago de datos a medida que crece.

Esta es la razón por la que los usuarios de Hadoop probablemente no dispondrán de análisis de cubos en el futuro, ya que las bases de datos "rápidas" evitan la sobrecarga y la complejidad de mantener un sistema basado en cubos.

El diseño del software triunfa sobre el preprocesamiento

Los cubos analíticos son el salvavidas de los almacenes de datos abarrotados o de las bases de datos analíticas mal equipadas cuando se vuelven demasiado grandes, pesadas y lentas para seguir el ritmo de la ejecución de cargas de trabajo cada vez más difíciles. ¿Por qué estas bases de datos han funcionado tan mal a medida que los volúmenes de datos aumentaban o requerían hardware avanzado? Porque los enfoques heredados de la ingeniería de software han limitado las mejoras de rendimiento.

En consecuencia, el sector se entusiasma cuando se producen mejoras meramente lineales en el rendimiento de sus consultas en comparación con la mejora del hardware. ¿Acaso las mejoras del hardware (a lo Ley de Moore) aceleran tanto nuestras consultas o ni siquiera nos damos cuenta? Apuesto a que no. ¿Qué sentido tiene eso cuando, por ejemplo, los fabricantes de chips añaden regularmente más formas de optimizar el procesamiento?

Actian ha aprovechado varias mejoras tanto en hardware como en software para potenciar entornos analíticos altamente optimizados.

Aprovechar mejor el hardware

Sencillamente, la mayoría de los sistemas no aprovechan la potencia inherente de las plataformas informáticas modernas. Si se ponen discos más rápidos (SSD), mejor RAM y se mejoran las conexiones de red, naturalmente las cosas pueden funcionar más rápido. Si además se añaden análisis de cubos, el rendimiento mejora, pero sólo en comparación con los sistemas heredados que se ejecutan en arquitecturas de diseño similar.

Las bases de datos modernas que utilizan las últimas mejoras del procesador (caché de chips, gestión de discos, tamaños de memoria, stockage en colonnes, etc.) ofrecen todas ellas una ganancia de rendimiento con respecto a los enfoques heredados. Estas mejoras muestran mejoras más que lineales, a menudo exponenciales, con respecto a otras soluciones populares del mercado. Aquí es donde Actian cuelga su sombrero en el espacio Big Data (ver Actian's Vector on Hadoop platform).

Todos deberíamos esperar mejoras significativas entre generaciones, tanto de hardware como de software. Al fin y al cabo, los ingenieros de hoy están mejor formados que nunca y utilizan el mejor hardware jamás desarrollado.

Si no aprovecha estas ventajas, ya ha perdido la oportunidad de dar el salto a la "luna" mediante analyse des données big data. No podrá tapar la presa con hormigón viejo, tendrá que verterlo de nuevo.

Las bases de datos de alto rendimiento están eliminando los límites que han estrangulado las bases de datos heredadas y los almacenes de datos durante las últimas décadas. Aunque los motores de cubos pueden seguir procesando sobre estas nuevas plataformas de bases de datos analíticas, a menudo son tan rápidos que no necesitan ayuda. En su lugar, las herramientas informatique décisionnelle (BI) comunes pueden conectarse directamente a ellas y mantener un excelente rendimiento de consulta.

gestion des données La capacidad es crucial

Las capacidades de gestión de bases de datos back-end son esenciales para cualquier base de datos sostenible. Mientras que los usuarios de front-end solo necesitan acceso SQL, los administradores de bases de datos requieren herramientas para modificar tablas, optimizar el almacenamiento, realizar copias de seguridad y limpiar los datos. Este es otro aspecto que distingue a las bases de datos analíticas y motores de cubos de nueva generación.

Muchas herramientas del ecosistema Hadoop hacen bien una cosa: leer varios tipos de datos o ejecutar procesos analíticos. Esto significa que no pueden hacer todas las cosas que suele requerir una base de datos empresarial. Los motores de cubos no son una excepción en este caso: su punto fuerte es resumir datos y crear consultas a partir de ellos.

Cuando sus datos son gestionados por un sistema de cubos, ya no dispone de una base de datos SQL empresarial. Es cierto que puede tener acceso a SQL, pero es probable que haya perdido las capacidades de inserción, actualización y reversión, entre otras. Esto es lo que debería esperar de su base de datos analítica: conformidad con ACID, conformidad total con SQL, enfoque columnar basado en vectores, natividad en Hadoop, junto con otras necesidades de gestion des données .

Estrechamente relacionada con la gestion des données está la capacidad de acceder a los datos brutos desde la fuente. Con una base de datos relacional rápida no hay separación entre los datos resumidos y los registros detallados. Siempre se está a una sola consulta de una mayor granularidad de los datos, desde la misma base de datos, desde la misma tabla. Cuando se actualiza la base de datos, todos los datos nuevos están disponibles para la siguiente consulta, independientemente de si se han procesado previamente o no.

¡gestion des données Matters!  

Los datos cambian a medida que se incorporan nuevos datos, pero también porque los usuarios quieren modificarlos, limpiarlos o agregarlos de formas distintas a las anteriores. Todos necesitamos esta flexibilidad y potencia para seguir aprovechando nuestras habilidades y experiencia en el manejo de datos.

Explosión de datos de control y complejidad de las plataformas

La explosión de datos es real. El adagio de que multiplicamos continuamente el ritmo al que crecen los datos nos lleva a preguntarnos: ¿cómo podemos mantenerlos lo más manejables posible?

Aquí es donde tengo un problema fundamental con los enfoques cúbicos de la analítica. Deberíamos esforzarnos por evitar herramientas que dupliquen y exploten aún más nuestros volúmenes de datos en crecimiento exponencial. Ni que decir tiene que tampoco deberíamos sacar los datos de Hadoop, como hacen algunos productos.

¿No tendría más sentido diseñar una solución que resolviera directamente los cuellos de botella de rendimiento en el software en lugar de poner una tirita a una base de datos analítica lenta preprocesando dimensiones que puede que ni siquiera se utilicen en el futuro?

Desgraciadamente, los enfoques basados en cubos hacen crecer intrínsecamente los volúmenes de datos. Por ejemplo, los responsables del proyecto Kylin han afirmado que ven "una expansión de los datos de 6 a 10 veces" mediante el uso de cubos. Esto también supone un personal adecuadamente formado que pueda construir y limpiar cubos con el tiempo. Rápidamente se hace imposible estimar las necesidades futuras de almacenamiento si no se puede estar seguro de cuánto espacio requerirá el análisis.

Evitar malabarismos con plataformas complejas

Muchas plataformas requieren hacer malabarismos con más piezas tecnológicas que una base de datos analítica moderna. Mantener las fuentes de datos cargadas y procesadas en una base de datos ya es bastante difícil, por lo que añadir capas encima para la normalización, la generación de cubos, la consulta y la regeneración de cubos, etc. hace que un sistema sea aún más difícil de mantener.

El proyecto Kylin de Apache, por ejemplo, requiere muchas piezas móviles: Hive para agregar los datos de origen, Hive para almacenar una copia desnormalizada de los datos que se van a analizar, HBase para almacenar los datos del cubo resultante, un motor de consultas para hacerlo compatible con SQL, etc. Puedes empezar a imaginar que podrías necesitar nodos adicionales para manejar varias partes de este diseño.

Es mucho equipaje; ¡esperemos que si lo utiliza, sea porque realmente lo necesita!

Considere la alternativa, como Actian Vector en Hadoop. Usted compila sus datos a partir de fuentes operativas. Crea sus consultas en SQL. Hecho. El hecho de que muchas opciones de Hadoop sean lentas no significa que tengan que serlo y que no necesitemos diseñar más complejidad en la plataforma para compensarlo.

Con una plataforma optimizada no tendrás que ejecutar tus consultas en segundo plano para obtener un buen rendimiento y no tendrás que preocuparte por la contención de recursos entre los productos de tu pila. Es todo un sistema. Todo, desde la gestión de bloques hasta la optimización de consultas, está dentro del mismo sistema subyacente y así es como debe ser.

Analistas SQL frente a malabaristas

Lo último que debe tener en cuenta son sus recursos humanos. Pueden soportar ser expertos en un número limitado de cosas. No todas las plataformas son fáciles de gestionar y mantener durante la vida útil de tu inversión.

Trabajamos con muchos proyectos de código abierto, pero al fin y al cabo somos los que mejor conocemos nuestro propio producto por dentro y por fuera. Podemos mejorar y optimizar partes de la pila a cualquier nivel. Cuando se utiliza un sistema con muchos subcomponentes desarrollados y gestionados por diferentes equipos, diferentes empresas e incluso diferentes comunidades de voluntarios, se sacrifica la capacidad de aprovechar la potencia de una solución estrechamente acoplada. A largo plazo, querrá que esas soluciones cuenten con un soporte y un mantenimiento profesionales que tengan en cuenta sus necesidades.

Desde un punto de vista práctico, he tratado de mostrar cómo muchos de los problemas que los cubos tratan de resolver son menos problemáticos cuando se dispone de mejores bases de datos relacionales. Del mismo modo, es importante considerar detenidamente si la sobrecarga adicional de mantener una solución de este tipo es prudente. Obviamente, esto varía según la situación, pero espero que estas comparaciones generales sean útiles a la hora de calificar la tecnología para un requisito determinado.

logo avatar actian

Acerca de Actian Corporation

Actian hace que los datos sean fáciles. Nuestra plataforma de datos simplifica el modo en que las personas conectan, gestionan y analizan los datos en entornos en la nube, híbridos y locales. Con décadas de experiencia en gestión de datos y análisis, Actian ofrece soluciones de alto rendimiento que permiten a las empresas tomar decisiones basadas en datos. Actian cuenta con el reconocimiento de los principales analistas y ha recibido premios del sector por su rendimiento e innovación. Nuestros equipos comparten casos de uso probados en conferencias (por ejemplo, Strata Data) y contribuyen a proyectos de código abierto. En el blog de Actian, tratamos temas que van desde la ingesta de datos en tiempo real hasta el análisis basado en IA. Conozca al equipo directivo https://www.actian.com/company/leadership-team/