Lagos de datos, almacenes de datos, centros de datos: ¿son necesarios?
Corporación Actian
17 de febrero de 2021

Existe un antiguo debate, que se remonta a los primeros días de Hadoop, sobre qué tipo de repositorio de datos es mejor para un determinado caso de uso de análisis de datos. ¿Un lago de datos? ¿Un centro de datos? ¿Un almacén de datos? A pesar de la caída en desgracia de Hadoop, el debate no sólo persiste, sino que se complica cada vez más. Los repositorios actuales basados en la nube, como AWS S3, Microsoft Azure ADLS y Google Cloud Store, se parecen mucho a los lagos de datos en la nube. Del mismo modo, las ofertas basadas en la nube como Snowflake se parecen mucho a los almacenes de datos empresariales, pero en la nube. Es cierto que, para comparar los lagos de datos de forma equitativa, habría que reducir Hadoop a HDFS o añadir las herramientas de gestión de repositorios de datos, consulta, etc. asociadas a las carteras de los tres proveedores de nubes públicas.
Al mismo tiempo, hay que señalar que ninguno de los vendedores que promocionan estas ofertas utiliza esos términos. . . Microsoft, Amazon y Google identifican sus repositorios en la nube como "centros de datos empresariales". Snowflake se posiciona como un entrepôt de données cloud pero está pivotando para llamarse a sí mismo una plataforma de datos en la nube a través de su ecosistema expansivo pero, por sí solo es realmente un "motor de análisis".
Cambiar el descriptor no cambia la cuestión que impulsa el debate, sin embargo, y la simple verdad es que ningún lago de datos, centro de datos, ni un almacén de datos - sur site o en la nube - ha sido capaz de apoyar eficazmente a todos los equipos multidisciplinares de analistas de negocio, ingenieros de datos, científicos de datos y usuarios avanzados dentro de las diferentes líneas de negocio. Eso era evidente antes de que existiera la nube, y se ha hecho más evidente a medida que los equipos tratan de incorporar nuevos conjuntos de datos (piense en servicios web e IoT) y tratan de fusionar datos semiestructurados en repositorios estructurados. No quiero ni hablar del torrente de hojas de datos de Excel que se suponía que iban a desaparecer (pero nunca lo hicieron) cuando nos volvimos más sofisticados en el análisis y la gestion des données.
Pero aquí está la cosa: hay diferencias reales entre estas plataformas y es importante entender esas diferencias. Al final, sin embargo, las diferencias operativas entre estas plataformas no son la causa principal de que no ofrezcan el apoyo que esperan todas las partes interesadas.
Ajuste del nivel
Empecemos por hablar de lo que realmente estamos hablando:
Centro de datos
Aquí definiremos un concentrador de datos como una pasarela a través de la cual los datos virtuales o físicos pueden fusionarse, transformarse y ponerse en cola para su paso a otro destino. Ese destino puede ser una aplicación, una base de datos u otro tipo de repositorio (como un lago de datos o un almacén de datos). En cualquier caso, los datos en un concentrador de datos son transitorios; no se almacenan localmente y no tienen persistencia.
Un ejemplo de concentrador de datos sería algo como Informatica, que puede acomodar todos los tipos de datos imaginables y enlazar fuentes y destinos de datos ascendentes y descendentes. Históricamente, los concentradores de datos han sido gestionados y utilizados por personal de IT que trabaja con grupos separados de toda la empresa para crear integraciones donde no existían de forma natural.
Lago de datos
A diferencia de un concentrador de datos, un lago de datos actúa como repositorio de datos persistentes. No se trata de un mero "pass-through". Por lo general, los lagos de datos pueden ingerir y gestionar casi cualquier tipo de datos y, como ejemplifica Hadoop (históricamente el tipo más popular de lago de datos), proporcionan herramientas para enriquecer, consultar y analizar los datos que contienen. El problema es que los lagos de datos suelen ser cajones de arena para volcar grandes conjuntos de datos utilizados en proyectos experimentales por recursos técnicos altamente cualificados, en gran medida informáticos y desarrolladores.
Almacén de datos
Un almacén de datos difiere de un lago de datos en que actúa como repositorio de datos persistentes y principalmente estructurados, construidos de forma incremental a lo largo del tiempo a partir de múltiples silos de fuentes de datos descendentes. Un almacén de datos también se diferencia de un lago de datos en que requiere algún tipo de tecnología de concentrador de datos para preparar los datos para la ingestión. Los almacenes de datos locales, como los de las grandes empresas tradicionales como Oracle, IBM y Teradata, están muy centrados en TI y son gestionados por uno o varios administradores de bases de datos (DBA). Aunque el grueso de los datos utilizados por los usuarios empresariales puede residir en última instancia en un almacén de datos, la mayoría de estos usuarios no tienen interacción directa con el almacén de datos y puede que ni siquiera sepan que tienen uno o qué es.
El caucho virtual se encuentra con la carretera virtual
Históricamente, los concentradores de datos, los lagos de datos y los almacenes de datos tienen varias cosas en común: requieren personal con conocimientos especializados para configurarlos, mantenerlos, gestionarlos y expertos que puedan convertir las peticiones de usuarios y analistas empresariales sin conocimientos técnicos en consultas e informes que puedan ejecutarse en estos repositorios de datos.
Como apunte, la complejidad de estas plataformas es una de las razones de la desaparición de Hadoop. Los lagos de datos Hadoop tendían a convertirse en vertederos de datos, y sólo podían gestionarlos desarrolladores y personal informático muy cualificado (y costoso), lo que limitaba el valor empresarial que podía generar un lago de datos Hadoop. No es del todo sorprendente que, como resultado, de los tres grandes proveedores que antes daban soporte a Hadoop, sólo Cloudera siga siendo el último "hombre" en pie.
Esta necesidad de recursos especializados también había afectado al uso de los concentradores de datos, los lagos de datos y los almacenes de datos de otras maneras, y esto a su vez ha complicado aún más la cuestión original sobre qué plataforma es la mejor para los distintos casos de uso. Con el paso de las infraestructuras sur site a las basadas en la nube, se ha reducido la demanda de todos estos recursos especializados. Los proveedores de la nube han proporcionado cada vez más apoyo operativo, lo que ha contribuido a reducir los costes operativos. Además, los cambios arquitectónicos en las generaciones más recientes de ofertas en la nube (separación de ofertas de computación y almacenamiento, pago por lo que se usa, etc.) han creado más incentivos para pasarse a la nube y reducir costes.
Aumentar aún más la complejidad
Aunque todos estos cambios estructurales han tenido lugar, la demanda fundamental de información basada en datos no ha cambiado. La respuesta a la pregunta de cuál es la mejor manera de obtener esta información se ha vuelto más difícil de responder. Los datos que solían ir a parar a lagos de datos o almacenes de datos (a través de concentradores de datos) se están trasladando a la nube, pero las ofertas en la nube no son exactamente las mismas que en la nube. Sus modelos de almacenamiento de objetos difieren. Microsoft, Amazon y Google ofrecen almacenes de datos persistentes y, en ese sentido, pueden parecerse a un lago de datos, pero dependen de otras herramientas para realizar las funciones de concentrador de datos y, por tanto, no pueden definirse como algo más que almacenes de datos. Siguen requiriendo la integración de datos o la funcionalidad de concentrador de datos, y su valor empresarial está limitado de la misma forma que siempre lo ha estado. Las personas que generan directamente valor empresarial -los analistas de negocio, los científicos de datos y (a falta de un título específico) los usuarios avanzados de otras líneas de negocio- siguen sin poder acceder fácilmente a los datos y desbloquear los conocimientos que contienen.
En la actualidad, la mayoría de los analistas empresariales y usuarios avanzados utilizan las funciones integradas de análisis y visualización de aplicaciones aisladas como Salesforce, Marketo o cualquier plataforma ERP que necesiten comprender en términos de operaciones empresariales o resultados históricos. Al mismo tiempo, se esfuerzan por hacer más. Los usuarios empresariales pueden intentar incorporar datos de archivos planos como Excel o datos JSON semiestructurados expuestos a través de API de servicios web. A menudo, obtendrán ayuda de TI para exportar datos de uno o más sistemas y combinarlos con hojas de cálculo Excel y enviarlos a un cubo de forma periódica. El resultado es dolorosamente familiar: canalizaciones de datos en silos vinculadas a resultados de análisis y visualización en silos. Sin que estos usuarios empresariales lo sepan, cuando recurren a la ayuda de TI, es posible que en realidad estén aprovechando un concentrador de datos, ya que no hay persistencia de datos en el concentrador, sino que simplemente han utilizado el concentrador como interruptor para unir un conjunto de silos de datos y un silo de análisis para crear un silo organizativo o de proyecto ad hoc.
Los científicos de datos y los ingenieros de datos pueden estar utilizando muchos de los mismos silos de datos, pero también pueden estar utilizando datos de conjuntos de datos semiestructurados, como flujos de clics, IoT y servicios web, y sus destinos pueden incluir las mismas herramientas de visualización, pero, por supuesto, también incluyen herramientas analytique avancée para apoyar AI/ML. Pueden emplear TI para ayudarles a obtener los datos y, a su vez, crear la misma red de espaguetis punto a punto.
Dicho de otro modo y simplificando, el repositorio único compartido de datos prometido por los lagos de datos, los almacenes de datos y los concentradores de datos sigue siendo un sueño irrealizable. Todavía no se ha creado un verdadero centro de análisis, ni en las instalaciones ni en la nube.
Todavía.
Cambiar el enfoque
Los proveedores de servicios en la nube están empezando a darse cuenta del problema, y algunos están cambiando rápidamente para abordarlo. Sin embargo, la forma en que lo están haciendo la mayoría de ellos es asegurándose de que un entrepôt de données cloud pueda actuar como un repositorio de datos ascendente para cualquier herramienta descendente de análisis, informes y visualización. A menudo esto se intenta a través de un ecosistema de socios, como en Snowflake. Esto es necesario, pero insuficiente para el centro de análisis que todos necesitamos.
Pero espere. ¿Un centro de análisis? ¿Dónde estaba eso en las definiciones anteriores?
La realidad es que la entrepôt de données cloud es actualmente un motor de análisis, pero sin un centro de datos integrado en el back-end y centrado en conexiones punto a punto separadas con diversas herramientas de BI y análisis en el front-end. Los proveedores como Snowflake no mencionan los centros de análisis y mucho menos afirman serlo. Además, sin la capacidad de obtener fácilmente datos de fuentes de datos y vincular elementos compuestos de datos de esas diversas fuentes para su presentación a las herramientas de análisis, no se dispone realmente de un centro de análisis, principalmente porque no se dispone de un centro de datos.
En lugar de un centro de datos o un centro de análisis, ambos utilizables únicamente por el departamento de TI, lo que realmente se necesita es un centro de análisis de datos que sea utilizado por un amplio abanico de usuarios empresariales y de TI. Más información sobre qué es esto y por qué es importante en el próximo blog.
Suscríbase al blog de Actian
Suscríbase al blog de Actian para recibir información sobre datos directamente en su correo electrónico.
- Manténgase informado: reciba lo último en análisis de datos directamente en su bandeja de entrada.
- No se pierda ni una publicación: recibirá actualizaciones automáticas por correo electrónico que le avisarán cuando se publiquen nuevas publicaciones.
- Todo depende de usted: cambie sus preferencias de entrega para adaptarlas a sus necesidades.