Analice los datos transaccionales y actúe sobre ellos con un almacén de datos operativos
Corporación Actian
13 de septiembre de 2018

Todos oímos hablar de cómo las empresas con visión de futuro, pequeñas y grandes, necesitan centrarse más en el cliente, incluso obsesionarse con él, para tener éxito en este mundo hipercompetitivo. Los datos aportan información sobre las necesidades y el comportamiento de los clientes, lo que permite adaptar activamente los mensajes y las ofertas para superar a la competencia y ganar su confianza. Este conocimiento procede de una variedad cada vez mayor de fuentes ininterrumpidas, a través de sistemas digitales y, cada vez más, de un mar de sensores, dispositivos y aplicaciones móviles que rastrean esas actividades. Pero el volumen de datos puede ser abrumador, y el valor de sus datos puede decaer rápidamente con el tiempo, por lo que es imprescindible disponer de una infraestructura que permita explotar rápidamente esa información perecedera para influir en cuándo y cómo se relaciona con sus clientes potenciales. Para ello es necesario un nuevo enfoque de la gestión de datos en el momento, que denominamos almacén de datos operativos (ODW, por sus siglas en inglés). Un ODW puede ir más allá de la elaboración de informes sobre datos históricos y estáticos y, en su lugar, puede operar con datos frescos y activos para impulsar acciones empresariales específicas, en el momento empresarial.
Las empresas ya disponen de una serie de soluciones para proporcionar información analítica, desde sistemas de bases de datos relacionales establecidos hasta almacenes de datos empresariales y lagos de datos, dentro de sus centros de datos o, cada vez más, en la nube. Las soluciones existentes suelen implicar algunos inconvenientes significativos que un almacén de datos operativo puede superar.
Tomemos como ejemplo el almacén de datos empresarial tradicional, que existe desde hace décadas. Es una forma consolidada de gestionar datos históricos, ofrecer actualizaciones por lotes, dar soporte a ciclos de informes periódicos y servir como única fuente de verdad para la empresa. Sin embargo, suele ser una solución cara, sobre todo si hay que actualizar el hardware, ampliar la capacidad, añadir nuevos tipos de datos y modernizar el acceso. Un EDW gestionado cuidadosamente por TI para la gouvernance y los costes controlados requiere que los nuevos informes pasen por un proceso de cambio formal que puede ralentizar el desarrollo. Mientras que un EDW gestiona bien las cargas de trabajo planificadas, es deficiente en las consultas ad hoc, lo que dificulta el découverte de données y la generación de análisis procesables sin afectar a las cargas de trabajo de informes existentes.
Otra opción para algunos es un almacén de datos operativos que proporciona más flexibilidad de datos y un entorno separado para permitir el análisis ad hoc, pero normalmente se centra rígidamente en un área o tipo de datos y no es exhaustivo. Al igual que un EDW, puede no estar optimizado para el rendimiento de las consultas analíticas interactivas necesarias para el descubrimiento.
Los lagos de datos son vistos por muchos como una solución más económica y escalable, con almacenamiento para muchas fuentes y tipos de datos. Sin embargo, pueden convertirse en un vertedero de datos mal gouvernance y validados. Su herencia arquitectónica, diseñada para una ingestion de données fácil y flexible, se traduce a su vez en un rendimiento lento de las consultas, simultanéité usuario deficiente y resultados impredecibles.
El último objeto brillante que ha aparecido es la base de données analytique en la nube, que promete un almacenamiento y un rendimiento económicos y un déploiement elástico sin límites. En realidad, estas soluciones basadas únicamente en la nube pueden dar lugar a costes de computación caros o impredecibles, opciones de déploiement limitadas con un alto potencial de dependencia del proveedor/arquitectura/datos, y una gestión y herramientas relativamente nuevas e inmaduras. ¿Existe una solución mejor?
La solución ideal para el análisis operativo tendría todas las mejores características de las alternativas mencionadas anteriormente sin ninguno de sus defectos. Este nuevo enfoque tendría que ser:
- Rápido - Tendría una arquitectura subyacente optimizada para el rendimiento de las consultas analíticas, que requeriría poco o ningún ajuste en previsión de determinadas cargas de trabajo (como indexación o agregaciones), maximizando la variedad de cargas de trabajo que podría soportar.
- Escalable: escalaría a grandes capacidades de datos con una capa de almacenamiento económica y flexible, conectándose a una variedad de fuentes de datos existentes heredadas y nuevas.
- Flexible - Ofrecería opciones flexibles de déploiement , sur site o en diferentes plataformas en la nube.
- Actual - Sería capaz de realizar actualizaciones casi en tiempo real desde los sistemas operativos para mantenerse al día con el negocio, sin ralentizar el rendimiento de las consultas analíticas en curso.
- Robustez: proporcionaría seguridad, fiabilidad y capacidad de gestión de nivel empresarial.
- Seguro: ofrecería una serie de mecanismos de protección de datos para satisfacer los requisitos de seguridad de las empresas y cumplir con entornos normativos más estrictos.
Estas características definen lo que llamamos un almacén de datos operativo. Con una solución de este tipo, dispondría de un sistema de base de datos capaz de proporcionar información sobre la empresa casi en tiempo real a una gran variedad de usuarios, desde científicos de datos a analistas empresariales. Permitiría el autoservicio ad hoc découverte de données y análisis utilizando los datos operativos más actuales, sin sobrecargar los sistemas transaccionales y las cargas de trabajo.
La base de datos analítica Actian Vector fue innovada desde cero para ser ese almacén de datos operativo, para aprovechar los datos en el momento. No solo es rápida, escalable y flexible, sino que está preparada para la producción con una seguridad, administración y gestión de recursos maduras.
Vector es la base de datos analítica más rápida disponible en los servidores estándar del sector, sur site o en la nube. El objetivo original era ejecutar código SQL tan rápido como si estuviera escrito en código C optimizado, aprovechando las instrucciones vectorizadas de las CPU estándar, así como un formato de datos en columnas para procesar las consultas analíticas de forma más eficiente. En los últimos seis años, Vector ha logrado ese objetivo y más, acumulando una serie de impresionantes resultados de referencia que han batido récords. Además, Vector no necesita ajustes especiales de rendimiento ni optimizaciones como la indexación y el ajuste, por lo que ofrece un gran rendimiento desde el primer momento. Esto hace que Vector sea ideal para el autoservicio ad hoc découverte de données, con un rendimiento interactivo y tiempos de ciclo reducidos para una iteración más rápida, y en conjuntos de datos completos, no muestras.
Vector ofrece escalabilidad desde un único servidor hasta clústeres de cientos de nodos, utilizando el sistema de archivos distribuidos de Hadoop y YARN para gestionar los recursos y distribuir la carga de trabajo allí donde se almacenan los datos. Vector gestiona datos de GB, TB y PB, y se adapta a un número de usuarios simultáneos muy superior al de otras soluciones MPP.
Vector heredó la infraestructura administrativa de los productos RDBMS transaccionales más consolidados de Actian, aprovechando la madurez demostrada de la planificación de consultas, la optimización de consultas, la ingestion de données, la calidad de datos, la seguridad, la fiabilidad y la capacidad de gestión. Actian DataFlow complementa perfectamente a Vector añadiendo un control más rápido e intuitivo sobre la ingestion de données y los flujos de trabajo analíticos, incluyendo una interfaz gráfica de usuario basada en KNIME, que facilita la creación y optimización de las cargas de trabajo de consulta.
La analítica puede ofrecer las mejores perspectivas con datos actuales, pero la mayoría de las soluciones analíticas esperan actualizaciones por lotes y patrones de acceso de escritura única y lectura múltiple que no admiten cambios frecuentes. Vector emplea una técnica patentada denominada árboles delta posicionales para gestionar las actualizaciones de los datos existentes sin afectar al rendimiento de las consultas, lo que da como resultado una analítica que puede incorporar actualizaciones periódicas y frecuentes para ofrecer la información más actualizada sobre su negocio.
Con la llegada del GDPR hemos visto un mayor enfoque en la privacidad y la seguridad. Las versiones de Vector incluyen todas las funciones necesarias para un déploiement conforme al GDPR, y las últimas incorporaciones facilitan la administración y el desarrollo de soluciones seguras. Por ejemplo, el enmascaramiento de datos garantiza que sólo los usuarios autorizados puedan ver los datos subyacentes, mientras que los demás sólo pueden ver un valor enmascarado.
Vector ofrece una amplia gama de opciones déploiement , que se ejecutan en servidores estándar del sector en Linux o Windows, y también es compatible con diferentes distribuciones de Hadoop para escalar en clústeres o infraestructuras en la nube. Vector también admite una amplia gama de opciones de almacenamiento, lo que reduce cualquier bloqueo tecnológico para su almacén de datos operativo.
Eche un vistazo a Vector hoy mismo en AWS Marketplace y descubra lo que un almacén de datos operativos de Actian puede hacer por usted.
Suscríbase al blog de Actian
Suscríbase al blog de Actian para recibir información sobre datos directamente en su correo electrónico.
- Manténgase informado: reciba lo último en análisis de datos directamente en su bandeja de entrada.
- No se pierda ni una publicación: recibirá actualizaciones automáticas por correo electrónico que le avisarán cuando se publiquen nuevas publicaciones.
- Todo depende de usted: cambie sus preferencias de entrega para adaptarlas a sus necesidades.