La gestión eficaz, eficiente y económica de los datos es esencial para el éxito de una organización. Los datos respaldan las opiniones expertas de las personas y aportan información a las decisiones de tecnologías emergentes como el aprendizaje automático, informatique décisionnelley las soluciones de inteligencia artificial.
La práctica de gestionar datos históricos y acumulativos puede resultar difícil. Los datos recogidos de numerosas fuentes en diversos formatos y que siguen diferentes convenciones de nomenclatura plantean en general una situación complicada para la organización. Esto dificulta dar a los datos un significado coherente y proporcionar accesibilidad a las personas y aplicaciones que utilizan los datos para tomar decisiones. Una arquitectura de almacén de datos puede ayudar a resolver estas complejidades.
¿Qué es la arquitectura de un almacén de datos?
La arquitectura de un almacén de datos consiste en planificar, diseñar, construir y gestionar los procesos operativos diarios de cómo se utilizan los datos para la inteligencia organizativa y el apoyo a la toma de decisiones. Una arquitectura de almacén de datos ayuda a crear una única fuente de verdad para grandes volúmenes de datos derivados de varias y diferentes fuentes de datos. Los datos se transforman en información y la información se transforma en conocimiento para el análisis dentro de la arquitectura de almacén de datos.
El ciclo de vida de los datos incluye la recopilación de datos de fuentes identificadas, la gestión de la integridad de los datos y la conciliación, el almacenamiento de datos, la transferencia de datos y la mejora continua de los datos en relación con la madurez organizativa, el análisis y las necesidades de toma de decisiones. La arquitectura del almacén de datos debe soportar estas actividades y otros aspectos de la gestión del ciclo de vida de los datos.
Las arquitecturas de almacenes de datos suelen estar diseñadas para las partes interesadas, como los departamentos de ventas y marketing, entre otros. Aunque utilicen datos comunes, cada parte interesada tiene diferentes necesidades de modelado y análisis de datos para sus decisiones. Esto incluye a las personas que utilizan diversas herramientas, así como la forma en que las tecnologías o aplicaciones consumen los datos para traducirlos en información y decisiones.
Tipos de arquitecturas de almacenes de datos
No es una buena práctica apoyar el procesamiento analítico con una base de datos transaccional debido a los problemas de rendimiento. Las bases de datos transaccionales están optimizadas para procesar grandes volúmenes de transacciones en tiempo real, mientras que las bases de datos analíticas están optimizadas para consultas de larga duración que consumen muchos recursos. Por este motivo, los datos transaccionales deberían ser una entrada para la base de datos del almacén de datos, en lugar de soportar tanto las necesidades transaccionales como las analíticas.
Existen diferentes modelos de almacén de datos, como:
Arquitectura básica de almacén de datos - Nivel único
Esta arquitectura minimiza la cantidad de datos almacenados y las redundancias de datos. No se utiliza habitualmente, pero puede satisfacer las necesidades de algunas organizaciones pequeñas que no requieren acceso empresarial a los datos. Los problemas de rendimiento suelen producirse cuando el procesamiento analítico y el transaccional no están separados.
Arquitectura de almacén de datos con un repositorio centralizado - Dos niveles
Esta arquitectura utiliza la puesta en escena para extraer datos específicos, transformarlos para su uso y cargarlos en un almacén de datos. Este proceso se denomina extracción, transformación y carga(ETL). Una de las fuentes de extracción puede ser una base de datos transaccional. La información se guarda en un repositorio individual lógicamente centralizado, un almacén de datos, que se combina con herramientas analíticas. Los data marts pueden incluirse en una arquitectura de almacén de datos de dos niveles para ofrecer aplicaciones centradas en el usuario empresarial.
Arquitectura de almacén de datos con un repositorio centralizado y un servidor OLAP de tres niveles
Esta arquitectura añade un servidor de procesamiento analítico en línea (OLAP) al diseño de dos niveles. Este nivel intermedio ofrece al usuario final una visión abstracta de la base de datos y contribuye a la escalabilidad y el rendimiento del sistema.
En cada una de las arquitecturas de almacén de datos enumeradas, siempre hay margen para una optimización adicional, como el uso de clústeres para descentralizar la gestión y el tratamiento de los datos. Esto podría ser útil para los retos relativos a gouvernance datos, a nivel local o internacional. Las arquitecturas de almacenes de datos podrían incluir modelos de bus, hub- and-spoke y federados para resolver necesidades específicas.
El siguiente diagrama muestra una arquitectura de almacén de datos de tres niveles. La estructura del almacén de datos puede modificarse en cada nivel para adaptarla a más componentes similares, como un aumento del número de data marts para dar soporte a unidades funcionales adicionales de la organización.
Diagrama de infraestructura de almacén de datos
Los principales componentes de la arquitectura de un almacén de datos son:
- Fuentes de datos: bases de datos y otros archivos, incluida una base de datos transaccional.
- El propio almacén de datos.
- Data Marts - para capacidades analíticas específicas de las partes interesadas.
- Servidor OLAP: permite un análisis de datos multidimensional rápido y flexible.
- Herramientas que utilizan las partes interesadas para acceder a los análisis (aplicaciones).
Uno de los valores de la arquitectura en el almacenamiento de datos es la simplicidad. Una organización puede empezar con una estructura básica utilizando pocos componentes y añadir más posteriormente en varias partes de la arquitectura a medida que evoluciona la estrategia de datos. Básicamente, hay que mantener la estructura de diseño y ampliar los elementos específicos, como las fuentes de datos, para añadir profundidad y amplitud a la solución.
Propiedades de las arquitecturas de almacenes de datos
Las arquitecturas de almacenes de datos deben centrarse en el procesamiento analítico. El procesamiento transaccional debe realizarse por separado utilizando una base de datos diferente. Una base de datos de procesamiento transaccional debe ser una fuente de datos para el almacén de datos más amplio.
Otras propiedades del almacén de datos deben incluir:
- La capacidad de escalar rápidamente el uso de datos para la analítica. Este puede ser un factor esencial para la prevalencia de la analítica derivada que incorpora los datos más recientes para las decisiones específicas que deben tomarse.
- La arquitectura debe admitir fácilmente datos adicionales sin rediseñar todo el sistema.
- Los datos deben estar adecuadamente protegidos. El almacén de datos contiene datos sobre toda la organización. Ponerlos en peligro es arriesgado y puede salir muy caro.
- Las herramientas de extracción, transformación y carga deben ser compatibles con distintas fuentes de datos.
- La gestión de la arquitectura no debe ser excesivamente complicada y debe simplificarse para facilitar su uso y obtener mejores resultados analíticos.
- La arquitectura del almacén de datos en exploration de données las aplicaciones deben utilizar datos fiables que se hayan extraído, transformado y cargado adecuadamente en el almacén de datos. las herramientas de exploration de données que no dispongan de buenos datos sólo devolverán resultados imprecisos.
- A medida que la organización madura y comprende cómo utilizar los datos, la solución de almacén de datos debe tener la capacidad de transformarse rápidamente para adaptarse a los cambios.
Las arquitecturas de almacén de datos también deben ofrecer un nivel de garantía relativo a la disponibilidad, seguridad, capacidad y continuidad de uso. Estos elementos de garantía de servicio para el almacén de datos también deben incluir la usabilidad y el rendimiento.
El almacén de datos debe ser fácilmente compatible con herramientas y aplicaciones como la elaboración de informes, la exploration de données y las herramientas de desarrollo de aplicaciones.
Almacén de datos tradicional frente a almacén de datos en la nube
Como ya se ha mencionado, un almacén de datos es una recopilación de datos de diversas fuentes, reconciliados para formar un almacén de datos más extenso para el procesamiento analítico primario con el fin de apoyar las decisiones de múltiples partes interesadas dentro de la organización. La diferencia entre un almacén entrepôt de données cloud datos tradicional y un entrepôt de données cloud está relacionada con la potencia general del uso de la informática basada en la nube.
Los almacenes de datos en la nube permiten a la organización:
- Aproveche el almacenamiento ilimitado, la rápida elasticidad y la escalabilidad.
- Mejorar la flexibilidad para soportar diferentes arquitecturas.
- Mejorar la movilidad y el acceso a los datos.
- Soporta analyse des données big data mejor que las típicas soluciones sur site .
- Despliegue más rápido que las soluciones sur site .
- Gane más reprise après sinistre a toda prueba reprise après sinistre.
- Ponga en común los recursos informáticos de forma más eficiente.
Las organizaciones también pueden ser creativas y utilizar una solución híbrida que aproveche lo mejor de las arquitecturas sur site y en la nube para respaldar los resultados de su almacén de datos para las distintas partes interesadas.
Las soluciones OLAP pueden aprovecharse para cualquiera de las dos arquitecturas. OLAP permite el análisis multidimensional de los datos, la información y el conocimiento del almacén de datos para respaldar el modelado complejo y el análisis de tendencias de la solución de almacén de datos. informatique décisionnelle (BI) y la toma de decisiones en todas las áreas funcionales de la organización que utilizan almacenes de datos pueden aprovechar OLAP para obtener análisis rápidos, eficaces y con capacidad de respuesta.
El éxito de las soluciones de almacén de datos depende de la comprensión de las necesidades de decisión de la organización. Cada parte interesada debe ser tratada de forma diferente, ya que varía cómo y cuándo toman las decisiones. Cuando sea posible, permita el autoservicio del usuario final para realizar cambios de configuración en qué y cómo se accede a los datos con sus aplicaciones. Las partes interesadas tendrán que dar su opinión sobre el procesamiento ETL para asegurarse de que los datos son comprensibles y satisfacen sus necesidades. Las partes interesadas y el soporte del almacén de datos deben trabajar juntos en colaboración y de forma coordinada para gestionar, evolucionar y transformar los datos y el almacén de datos en una solución eficaz, eficiente y económica para la organización.