Las empresas modernas funcionan con datos, y muchos. Un almacén de datos proporciona un lugar único para agregar datos de todos sus sistemas informáticos, donde puede analizarlos y desarrollar la información que necesita para ser competitivo. Esta guía sobre almacenes de datos le explicará qué es un almacén de datos, por qué lo necesita, cómo se utiliza y las ventajas que puede obtener.
Definición de almacén de datos
Un "almacén de datos" es un depósito de datos históricos organizados por temas para apoyar a los responsables de la toma de decisiones de una organización. Los almacenes de datos son sistemas utilizados para almacenar datos procedentes de una o varias fuentes distintas en un lugar centralizado al que se puede acceder para la elaboración de informes y el análisis de datos. Los datos del almacén de datos pueden ser actuales o históricos, y pueden estar en su forma original de datos brutos o procesados/resumidos.
Los datos de un almacén de datos se importan de sistemas fuente (como plataformas ERP, CRM o financieras) y se reúnen en el almacén, donde pueden utilizarse en toda la empresa para crear informes analíticos y apoyar la prise de décision empresariales. El proceso general utilizado para agregar y transformar datos para su almacenamiento se denomina "extracción, transformación y carga" (ETL, por sus siglas en inglés). Lo que esto significa es que una empresa toma una copia de los datos de los sistemas de origen, dejando los datos originales intactos y en su lugar - evitando la interrupción de los procesos transaccionales que puedan estar ocurriendo.
Una vez que los datos se cargan en el almacén de datos, se refinan y procesan para eliminar los problemas de calidad de los datos, integrar fuentes de datos interdependientes y organizarlos para facilitar su consumo. Los almacenes de datos también suelen contener resúmenes de datos preprocesados e instantáneas de datos de distintos momentos que se utilizan como ayuda para el análisis. Mientras que los sistemas transaccionales se preocupan más por mantener el estado actual de los datos (y lo hacen sobrescribiendo los valores cuando se actualizan los datos), los almacenes mantienen el historial de cómo cambian y evolucionan los datos de una empresa. Esto es especialmente importante cuando se realizan análisis de tendencias y otros análisis empresariales destinados a responder a preguntas sobre "por qué" ha ocurrido algo en una empresa.
¿Por qué necesitan las empresas un almacén de datos?
Con las empresas embarcadas en la transformación digital de sus operaciones empresariales, casi todos los procesos de negocio están pasando a depender de una multitud de sistemas de TI y de los datos que esos sistemas registran y mantienen. Para que las empresas funcionen de manera eficiente y alcancen sus objetivos, los empleados, desde los altos ejecutivos hasta los colaboradores individuales, necesitan un acceso eficiente a los datos y análisis que proporcionan información procesable sobre el funcionamiento de una empresa, las áreas de riesgo o preocupación y las oportunidades de ventaja competitiva. La información que necesitan estas personas procede de muchas fuentes diferentes, pero para que sea fácilmente accesible para el análisis, las empresas necesitan los datos agregados en un lugar común. Eso es un almacén de datos.
- La necesidad de información que abarque múltiples sistemas de origen.
- Proporcionar un archivo a largo plazo para los datos transaccionales, de modo que los sistemas fuente puedan purgarse para mantener un alto rendimiento.
- Proporcionar un lugar donde puedan realizarse informes y análisis sin crear una carga adicional en los sistemas operativos.
La necesidad de disponer de información integrada es, con diferencia, el principal motor de la inversión en sistemas de almacén de datos, ya que representa tanto necesidades empresariales estratégicas (que conducen a una ventaja competitiva) como necesidades tácticas/operativas para apoyar las operaciones empresariales cotidianas. Los almacenes de datos son inversiones informáticas costosas, tanto para su instalación inicial como para su funcionamiento. Como tales, se consideran una inversión a largo plazo y, con el tiempo, pasan a formar parte del tejido subyacente del ecosistema informático de una empresa. Los datos almacenados en un almacén de datos proceden a menudo de toda la empresa y permiten a los usuarios de funciones empresariales dispares aprovechar recursos de datos que se extienden mucho más allá de su área directa de control o influencia.
Conceptos de almacén de datos
Existen muchas variantes de almacenes de datos y conceptos relacionados que pueden resultar confusos para alguien que se inicie en el tema. A continuación se presentan algunos de los conceptos más comúnmente relacionados con los almacenes de datos para ayudar a desmitificar el tema de los almacenes de datos:
- Enterprise Data Warehouse (EDW) - EDW es un almacén de datos diseñado para dar soporte a toda una empresa, no sólo a una única función. Los almacenes de datos empresariales son habituales en las grandes empresas y desempeñan la importante función de servir de puente entre unidades de negocio, ubicaciones y sistemas informáticos fragmentados. Incluso si su empresa tiene múltiples sistemas transaccionales, un EDW puede utilizarse para reunir todos sus datos en un solo lugar para el análisis centralizado y la presentación de informes.
- Almacén de datos operativos (ODS) - Un almacén de datos operativos es la parte de su almacén general que contiene los datos brutos agregados de sus sistemas transaccionales y operativos antes de ser traducidos y resumidos. Las empresas suelen mantener un ODS separado de sus data marts como medio de proporcionar a los analistas acceso a los datos subyacentes utilizados para generar informes.
- Data Mart - Los data marts son una visión simplificada de los datos de un almacén centrada en un único tema o área funcional. Un único departamento dentro de una organización a menudo construye y controla los data marts y pueden (o no) estar integrados con el almacén de datos de la empresa. Las empresas que carecen de un almacén de datos completo pueden tener en su lugar algunos marts de datos. Los datos almacenados en los data marts suelen organizarse y filtrarse para satisfacer las necesidades específicas del departamento que los patrocina. La mayoría de los data marts se actualizan cada noche a partir de los sistemas fuente, por lo que los datos que contienen pueden tener hasta 24 horas de antigüedad.
- OLAP - traitement analytique en ligne son sistemas especializados diseñados para apoyar las actividades de minería de datos. Aplican múltiples capas de algoritmos complejos para desplegar, desglosar y trocear datos sin procesar y convertirlos en información empresarial. Los sistemas OLAP suelen ejecutarse varias veces al día, generando datos analíticos de unas pocas horas de antigüedad (en comparación con los data marts, que suelen tener una latencia de un día entero).
- informática de decisión (BI) - informatique décisionnelle de decisión (BI) informatique décisionnelle es un término amplio utilizado para describir un conjunto de técnicas y herramientas para la adquisición y transformación de datos brutos en información significativa y útil para fines de análisis empresarial. Los almacenes de datos suelen constituir el núcleo de las capacidades de la informatique décisionnelle décisionnelle de una empresa, además de las herramientas de análisis y elaboración de informes.
- exploration de données - exploration de données es el proceso de descubrir patrones en grandes conjuntos de datos. La exploration de données moderna a menudo implica una combinación de aprendizaje automático, inteligencia artificial, estadística y almacenamiento de datos. Las empresas extraen datos para obtener información práctica que les proporcione una ventaja competitiva.
- ETL - Exportar, Transformar, Cargar, o ETL, por sus siglas en inglés, es el proceso utilizado para trasladar datos de sistemas fuente transaccionales al almacén de datos, donde pueden refinarse y consumirse. Los tipos y el alcance de la transformación de datos a menudo determinan el nivel de calidad de los datos en el almacén de datos.
- nettoyage des données - nettoyage des données es el conjunto de actividades que se llevan a cabo para resolver los problemas de calidad de los datos fuente brutos. Los datos combinados de diferentes fuentes no sólo heredan los problemas de calidad de los datos de origen (como inexactitudes, datos que faltan, registros incompletos y relaciones rotas), sino que también es probable que incluyan lagunas, redundancias y conflictos entre las fuentes de datos. nettoyage des données aborda estos problemas antes de que los datos pasen al almacén de datos.
- métadonnées - métadonnées métadonnées son datos sobre los datos, como el tamaño, el formato, la fuente, las descripciones, las relaciones y la clasificación de los datos. métadonnées son importantes en un almacén de datos, porque ayudan a los usuarios a encontrar y comprender fácilmente los datos que se han desplazado de su contexto original.
- Diccionario de datos - El diccionario de datos es un conjunto de datos de referencia sobre los objetos de datos, elementos y atributos almacenados en su almacén de datos. Proporciona a los usuarios un medio para comprender el contenido y el contexto de los datos más allá de las simples etiquetas y descripciones de campos.
- gouvernance datos - La gouvernance datos es el conjunto de procesos y controles que garantizan que los datos se crean y mantienen de acuerdo con las normas, políticas y reglas de negocio de la empresa y que, a medida que se transforman los datos, se mantienen las definiciones de datos y las restricciones de integridad definidas en el modelo de datos.
Arquitectura de almacenes de datos
Hay dos tipos de arquitecturas que es importante comprender en un almacén de datos. La arquitectura del sistema arquitectura del sistema de los distintos componentes técnicos que forman en conjunto la solución de almacén de datos y la arquitectura de datos de la información almacenada en el almacén de datos.
La arquitectura del sistema de un almacén de datos suele estar alineada con las etapas de transformación que tienen lugar a medida que los datos brutos se refinan y se convierten en información procesable y consumible para los usuarios. Puede considerarse similar a un flujo de trabajo de fabricación, que transforma las materias primas en bienes consumibles y acabados con múltiples etapas de refinamiento a lo largo del proceso.
- Fuentes de datos - Son los distintos sistemas fuente que proporcionan datos al almacén de datos.
- Área de preparación o lago de datos - El área de preparación se utiliza para almacenar datos en bruto importados de cada una de las diferentes fuentes de datos, de modo que puedan procesarse sin causar impactos en el rendimiento de los sistemas transaccionales.
- Integración - La capa de integración se utiliza para conectar los datos dispares de varias fuentes, estableciendo relaciones clave, resolviendo duplicados y almacenando los datos en un almacén de datos operativos (ODS).
- Base de datos del almacén - Los datos se trasladan del almacén de datos operativos a la base de datos del almacén central, donde se catalogan y organizan en grupos jerárquicos denominados dimensiones y en hechos y hechos agregados. Esta organización jerárquica facilita la búsqueda de datos en el almacén y mejora el rendimiento del procesamiento.
- Almacén de datos operativos - Un almacén de datos operativos (ODW) responde a la necesidad de análisis operativos que proporcionen la base para el análisis en tiempo real. Entre las características de un ODW se incluyen la actualidad, de haute performance, la necesidad de gestionar las actualizaciones de forma eficiente y la flexibilidad para desplegarse sur site y en la nube.
- Data Marts - Los data marts son vistas, o subconjuntos, de los datos que están resumidos y curados para una audiencia específica. Los objetivos de los data marts son facilitar el acceso a los datos en el almacén de datos y aplicar un nivel de control de acceso a los datos, garantizando que sólo puedan utilizarlos las personas autorizadas.
- Usuarios : son las numerosas personas, procesos empresariales y sistemas que acceden a los datos del almacén de datos. Esto incluye tanto a los usuarios humanos como a otros sistemas, como la Inteligencia Artificial (IA) y los sistemas de apoyo a la toma de decisiones.
La arquitectura de datos de un almacén de datos se refiere a cómo se organizan los datos dentro del almacén. La arquitectura de datos es un tema más complejo, porque las transformaciones que se producen dentro del sistema de almacén de datos a menudo implican cambios de una arquitectura de datos a otra. Los datos de la mayoría de los sistemas fuente se organizan como esquemas de bases de datos relacionales siguiendo un conjunto de principios denominado normalización de datos , introducido por Edgar Codd en 1970. Mientras que las arquitecturas de datos relacionales normalizadas funcionan bien para los sistemas transaccionales que sólo se ocupan de los datos actuales, los almacenes de datos transforman los datos relacionales en lo que se denomina un esquema en estrella, que agrega los datos en función de su contenido y de cómo se consumen. Los data marts (las vistas dentro de un almacén de datos que consumen los usuarios) pueden transformar la arquitectura de datos de nuevo, en vistas de procesos de negocio o de áreas temáticas simplificadas que se alinean con la forma en que se utilizan los datos para la toma de decisiones.
¿Qué es un sistema de almacén de datos?
El almacén de datos es una base de datos estable y de sólo lectura que combina información de sistemas independientes en una ubicación de fácil acceso. Se trata de una capa superior a otras bases de datos, diseñada específicamente para dar soporte a la analítica. El término "sistema de almacén de datos" se utiliza para referirse al conjunto de componentes que trabajan juntos para proporcionar la capacidad general de almacén de datos a una organización. Muchos proveedores de software comercial venden sistemas de almacén de datos, y están disponibles tanto en opciones de sur site como alojadas en la nube. Un sistema de almacén de datos suele constar de una o varias bases de datos, herramientas para realizar la extracción, transformación y carga (ETL) desde los sistemas fuente, capacidades para gestionar los esquemas de datos y el diccionario de datos, con herramientas para publicar datos en los marts de datos y los sistemas consumidores.
Ejemplos de almacenes de datos
Hay muchos ejemplos de empresas que utilizan almacenes de datos en la actualidad. Algunos ejemplos comunes son:
Almacén de datos de ventas
Almacén de datos especializado que contiene datos sobre las actividades de ventas y marketing de una empresa. Es probable que incluya contenidos como datos de clientes, transacciones de ventas, campañas de marketing, opiniones de clientes y datos sobre la competencia. Los equipos de ventas y marketing utilizan un almacén de datos de ventas directamente para la generación de clientes potenciales y la captación de clientes, así como para otras funciones empresariales, como la gestión de productos que desarrolla nuevas ofertas y los equipos financieros que realizan proyecciones de crecimiento de ingresos.
Almacén de datos de fabricación
Las empresas que gestionan procesos de fabricación complejos, operaciones logísticas y cadenas de suministro externalisé suelen disponer de un almacén de datos específico para agregar todos los datos de sus operaciones de fabricación en un lugar común para la elaboración de informes. Esto les permite realizar análisis robustos, buscando, por ejemplo, problemas de calidad y oportunidades de mejora del rendimiento sin interrumpir los procesos de fabricación que deben utilizar sistemas transaccionales. Las empresas con cadenas de suministro externalisé también suelen utilizar los almacenes de datos de fabricación para agregar datos de varios proveedores sin necesidad de desarrollar numerosas integraciones punto a punto entre sistemas ERP.
Almacén de datos de la empresa
Las grandes organizaciones suelen optar por centralizar sus archivos de datos en un único almacén de datos empresariales que contiene datos de los sistemas y procesos informáticos de toda la organización. Aunque los almacenes de datos empresariales pueden ser caros de construir y operar, proporcionan la mayor oportunidad para identificar ideas de negocio procesables que abarcan funciones de negocio y límites organizativos. Un almacén de datos empresariales también puede proporcionar a una empresa la capacidad de conservación de datos a largo plazo que puede ser necesaria para el cumplimiento de la normativa. Los datos pueden almacenarse en el EDW incluso después de que los sistemas fuente se hayan retirado y desmantelado.
Almacén de datos frente a base de datos
Las bases de datos son un componente importante de su almacén de datos, pero ambos términos no son intercambiables. Una base de datos es el término genérico para un sistema de almacenamiento en el que se registran datos, que se utilizan para muchos fines, como, por ejemplo, el procesamiento de transacciones, el apoyo a la funcionalidad de las aplicaciones y la elaboración de informes. Las bases de datos incluyen, por ejemplo, OLTP (bases de datos de aplicaciones), OLAP (utilizadas en almacenes de datos), XML, archivos CSV, archivos de texto y hojas de cálculo. El uso de la mayoría de las bases de datos está limitado a una aplicación, un proceso de negocio o un propósito específico. Una base de datos diseñada para gestionar transacciones no está estructurada para realizar análisis correctamente.
En comparación, un almacén de datos es un conjunto especializado de capacidades para extraer datos de sistemas transaccionales y almacenarlos en un tipo específico de base de datos que organiza y optimiza para apoyar el análisis de datos y la elaboración de informes. Un almacén de datos típico incluye múltiples bases de datos que almacenan datos a diferentes niveles de transformación, incluidas las bases de datos de origen, los almacenes de datos operativos, la base de datos central del almacén de datos y los data marts especializados que presentan vistas filtradas de los datos a los usuarios.
Ventajas de un almacén de datos
Las empresas implantan almacenes de datos por muchas razones, que van desde la necesidad de información empresarial estratégica hasta la resolución de problemas tácticos de agregación y conservación de datos. En general, los almacenes de datos ofrecen las siguientes ventajas:
- Integrar datos de múltiples fuentes en un único modelo de datos - Esta avantage es importante para las empresas que utilizan ofertas de software preempaquetado y SaaS que tienen su propio modelo de datos único que no puede personalizarse para alinearse con un estándar de la empresa. El almacén de datos proporciona un lugar donde las incongruencias del modelo de datos a través de los sistemas de origen se pueden reconciliar para ensamblar el panorama general de los activos de datos de una empresa.
- Proporcionar un lugar unificado para acceder a los datos - Para los usuarios puede resultar caro y lento acceder a los datos desde la gran variedad de sistemas fuente que se utilizan en una empresa. Un almacén de datos ofrece la oportunidad de agregar datos en un lugar común donde pueden organizarse y presentarse a los usuarios para facilitar su uso.
- Mantener el historial de datos sin ralentizar los sistemas de origen - A medida que funcionan los flujos de trabajo empresariales, producen continuamente nuevos datos. Con el tiempo, el volumen de nuevos datos creados empieza a ralentizar los sistemas transaccionales. Al mover los datos a un almacén de datos, los sistemas de origen pueden ser purgados de datos antiguos para mantener la eficiencia del procesamiento transaccional.
- Permitir una visión centralizada en toda la empresa - La mayoría de los departamentos de una organización son territoriales en cuanto a los datos que crean, queriendo controlar y restringir quién puede acceder a ellos y cómo se utilizan. Aunque hay casos en los que esto es una buena práctica (como los secretos comerciales patentados), muchos de los datos producidos en una empresa tienen el potencial de crear valor en otras partes de la empresa. El almacén de datos ofrece un lugar común en el que los datos separados por funciones pueden reunirse para crear una visión global de los datos de la empresa, que a menudo proporciona información que ayuda a los directivos a tomar decisiones de inversión y planificación estratégica.
- Limpiar y reconciliar datos ambiguos y duplicados - Es muy raro que los datos de diferentes sistemas de origen encajen de forma limpia y sin fisuras. Lo más frecuente es que, al recopilar datos, surjan conflictos, lagunas, redundancias y omisiones de información que deben corregirse para que el conjunto de datos combinado pueda utilizarse eficazmente para el análisis. Las diferencias pueden ser intencionadas en función de las necesidades del negocio, pero cuando se utilizan en el contexto de la elaboración de informes pueden causar confusión. El almacén de datos ofrece a las empresas la oportunidad de aplicar reglas de negocio para resolver los problemas de calidad de los datos sin tener que cambiar los sistemas de origen.
- Supervisión y control centralizados para hacer cumplir las políticas de acceso y uso de datos - La gouvernance datos y el control de quién está autorizado en la organización a acceder y utilizar los datos es una parte importante para maximizar el valor de los activos de datos de una empresa. Dado que un almacén de datos proporciona un repositorio centralizado de datos de toda la empresa, también es el lugar ideal para aplicar políticas de acceso a los datos.
- Evite los impactos en el rendimiento de la consulta de sistemas transaccionales para la generación de informes - Las consultas analíticas tienden a ser muy complejas y consumen considerables recursos de procesamiento del sistema. La ejecución de análisis e informes en sistemas transaccionales puede provocar problemas de latencia en las interfaces de usuario y ralentizar los flujos de trabajo empresariales. Los almacenes de datos proporcionan un entorno independiente en el que las consultas analíticas pueden ejecutarse de forma segura sin afectar al rendimiento de las bases de datos de origen o de las aplicaciones que dependen de ellas.
- Organizar los datos para que tengan sentido para los usuarios empresariales - Los sistemas transaccionales tienen estructuras de datos optimizadas para el rendimiento de las aplicaciones y los flujos de trabajo empresariales a los que dan soporte, no para que los usuarios humanos las entiendan fácilmente. Los almacenes de datos y los mercados de datos permiten reorganizar, catalogar y describir los datos de una empresa de forma que los usuarios puedan entenderlos y les resulte más fácil encontrar los datos que necesitan para tomar decisiones.