Lagos de datos: El futuro de la gestion des données para las empresas
A principios de 2000, VMWare permitió a las organizaciones virtualizar sus servidores (computación) y su almacenamiento (almacenes de datos). Aún era necesario aportar el dinero para el coste de las licencias, y el impacto en la red era significativo, pero virtualizar la TI proporcionaba un respiro hasta la nube. Gracias a la infraestructura y las herramientas de la nube, ya no era necesario mantener, ni siquiera conocer, la cantidad de recursos informáticos y de almacenamiento necesarios en cada momento.
La nube se escalaba de forma flexible hacia arriba y hacia abajo, y la capacidad para albergar datos era muy inferior a la arquitectura que se encuentra en la mayoría de los centros de datos de las empresas. Esto dio lugar a la rápida adopción de nuevas infraestructuras de lago de datos basadas en proveedores de nube de Amazon, AWS data lake y Microsoft, Azure data lake, y Google, Google Cloud, cuando se introdujeron.
Hay que tener en cuenta que un almacén de datos sigue teniendo el mismo tamaño una vez construido. Si un almacén de datos se queda pequeño, hay que construir otro mayor, lo que lleva tiempo y dinero. La nube permite añadir o eliminar entornos o aplicaciones enteros en cuestión de minutos y con un coste mínimo. Además, la mayoría de los modelos de precios de la nube se basan en el uso de la computación y no en el almacenamiento. Imagínese construir un almacén de datos de gran cantidad y que sólo le cobraran cuando entrara en ellos e hiciera algo con lo que había dentro. La analogía es válida para la nube.
Lo que faltaba era una forma de albergar todos los tipos de datos disponibles a medida que Internet ganaba importancia. IoT, audio, blogs, vlogs, noticias, fuentes de datos en tiempo real... todo necesitaba ser consumido por las organizaciones para mantenerse actualizadas y relevantes. Los almacenes de datos no podían diseñarse con la suficiente rapidez, por lo que James Dixon introdujo la definición de lago de datos en 2010; piense en él como una forma de acabar con los silos de datos mediante la creación de un conjunto de información procedente de cualquier fuente necesaria en tecnología en la nube como AWS y Azure. Los datos pasaron de extraerse, transformarse y cargarse en sus aplicaciones a extraerse, cargarse y transformarse cuando usted lo solicitaba.
analyse des données big data, búsqueda de texto completo, uso en tiempo real, aprendizaje automático e inteligencia artificial son todos resultados de los lagos de datos. Los datos son el principal bien de cualquier organización. La forma en que gestione y manipule los datos garantizará su supervivencia, cumplimiento, competitividad, resistencia y rentabilidad. Los almacenes de datos eran la estrategia original de almacenamiento de información, mediante la cual sabías lo que tenías, qué aspecto tenía y quién lo utilizaba para qué, todo ello en la infraestructura que gestionabas. Pero te quedabas sin espacio hasta que se introdujeron la nube y la virtualización en infraestructuras de productos básicos de bajo coste, al igual que los lagos de datos de Google, los lagos de datos de AWS o los lagos de datos de Azure. Ahora podía ampliar y reducir en función de sus necesidades, añadir cualquier formato de datos que necesitara y utilizar una plétora de herramientas que le ayudaran a analizar los datos para tomar decisiones rápidas en tiempos de incertidumbre (COVID19) o simplemente para mantener su relevancia, competitividad, seguridad y conformidad.
En 2017, Aberdeen realizó un estudio que mostraba cómo las empresas que utilizaban lagos de datos superaban a sus competidores en un 9 %. Como veremos más adelante, la creación y el uso de lagos de datos conlleva ciertas advertencias, pero las ventajas superan claramente a los riesgos.
¿Qué es un almacén de datos?
Para entender los lagos de datos, hay que remontarse a 1992, cuando Ralph Kimball y Bill Inmon acuñaron el término Data Warehouse para describir las reglas y esquemas que controlarían los datos durante las 2 décadas siguientes. Los datos podían organizarse en marts o archivadores y, a continuación, colocarse de forma lógica en un almacén de datos para garantizar su seguridad y usabilidad. La gestion des données empresarial de datos se convirtió en una estrategia a nivel directivo, ya que lo que se sabía y cuándo se sabía estaba demostrando su importancia.
La definición de Wikipedia de almacén de datos destaca su uso y sus puntos débiles: "depósitos centrales de datos integrados procedentes de una o varias fuentes dispares. Almacenan datos actuales e históricos y se utilizan para crear informes de tendencias para informes de alta dirección, como comparaciones anuales y trimestrales". Al igual que un almacén, la protección (seguridad de la aplicación) permitía a la persona autorizada avantage los datos del almacén. Pero, y de ahí la debilidad del almacén, se necesitaba a alguien que diera forma a los datos en ese formato útil. Las herramientas por sí solas no servían de nada al usuario corriente de la empresa.
Lago de datos frente a almacén de datos
Las principales diferencias entre un almacén de datos y un lago de datos se muestran en la siguiente tabla. Aunque no lo incluyen todo, las diferencias deberían ayudarle a apreciar que los datos son un requisito estratégico para los líderes. No gestionar los datos adecuadamente puede conllevar riesgos para la reputación, multas e insolvencia.
Un ejemplo de lago de datos: Marketing quiere saber qué clientes utilizan las redes sociales y en qué medida, pero también necesita conocer su historial de compras y, si es posible, lo que también rechazaron o devolvieron. Además, marketing quiere saber la rotación de clientes, su fidelidad, cuáles se beneficiaron de las recompensas y el impacto en la empresa. Utilizando almacenes de datos, los desarrolladores tendrían que extraer información de varias fuentes para elaborar el informe, pero la información de las redes sociales sería la más difícil, si es que fuera posible leerla y utilizarla. Toda esta información podría encontrarse fácilmente en un lago de datos, y el equipo de marketing, utilizando una herramienta como Tableau, podría elaborar el informe en un par de horas.
Lo cierto es que necesitará y utilizará tanto almacenes como lagos. Puede que decida dividir su almacén de datos en data marts (archivadores para RRHH o Finanzas, por ejemplo) y arrojarlos a su lago, pero se dará cuenta de que necesita ambos. La cuestión no es la arquitectura, sino la finalidad. Las consultas estándar rápidas y repetibles avantage un almacén de datos. El análisis y el modelado, cuando las fuentes de datos son dispares, requieren un lago de datos.
Arquitectura de lagos de datos
Utilizar analogías es una buena forma de entender las diferencias entre los almacenes de datos y los lagos de datos. Un almacén se construye con un propósito y según un diseño específico, lo que permite que todo esté en su sitio una vez aprobado su almacenamiento. Términos como Relational, Extract, Transform and Load o on-write se asocian a los almacenes de datos. Los desarrolladores van al almacén de datos correcto, encuentran lo que necesitan, lo utilizan si el acceso está aprobado y crean la información relevante para el uso empresarial. Si necesitan cambiar los datos, entonces depende de si se puede utilizar el almacén de datos o si hay que construir uno nuevo. Lo mismo ocurre con la adición de más datos, ya que los almacenes no crecen automáticamente.
Los lagos, en cambio, cambian de forma a causa de un nuevo arroyo o fuente de agua, se encogen si el arroyo se seca o incluso se convierten en un pantano si el lago se llena de basura o maleza. Un lago de datos puede ampliarse o reducirse en función de las fuentes de datos y de lo que se cree y almacene en él. Para ello no es necesario programar, ya que la infraestructura en la nube tiene esta capacidad de forma natural si se paga por este servicio. Los lagos de datos también pueden convertirse en pantanos de datos corruptos, por lo que hay que tener cuidado.
En un almacén de datos, todos los esquemas para utilizar los datos deben ser creados por desarrolladores que comprendan la estructura de los datos y el uso previsto. En un lago de datos, la variedad de datos se hace utilizable mediante una variedad de herramientas de análisis y modelado. Un analista de datos podría ser más adecuado para garantizar una gestión adecuada de la información, pero podría decirse que cualquier usuario autorizado puede avantage echo de los datos del lago. De ahí lo de cargar y transformar. Términos como fluido, etiquetado para uso, catálogo, exploration de données y lectura están asociados a los lagos de datos.
Arquitectura técnica
En la nube, los datos se almacenan en una infraestructura básica tanto para los almacenes de datos como para los lagos de datos. La principal diferencia es que se necesita un tipo específico de software para interrogar, analizar y producir la información solicitada al lago. El conjunto de software más destacado diseñado para este fin es el lago de datos Hadoop que utiliza HDFS (Hadoop Distributed File System) o una serie de etiquetas colocadas en catálogos que marcan cada dato con lo que es, de dónde viene, fecha de creación, etc. que el solicitante utiliza después para crear su modelo o análisis. YARN (Yet Another Resource Manager) y MapReduce, que engloban la programación Hadoop, soportan el análisis y el modelado de cualquier fuente de datos. Actualmente existe una larga lista de otras herramientas disponibles que ofrecen diversos grados de sofisticación.
- SLA de alta disponibilidad (debe planificarse el almacén).
- Los datos están enmascarados y encriptados (no siempre en un almacén).
- Abundan las herramientas automatizadas de supervisión y alerta de uso o acceso ilegal.
- Requiere formación sobre aspectos de seguridad y reglamentación de datos para desarrolladores y usuarios.
- Si está en la nube, escalable arriba/abajo.
- Tecnología agnóstica: Spark, Hive, MapReduce, HBase, Storm, Kafka y R-Server.
AWS, Azure y Google Data Lakes
Google, Amazon y Microsoft ofrecen lagos de datos comerciales. Mientras que otras opciones están disponibles cada día, estas empresas comenzaron sus opciones en la nube con los lagos de datos en mente. Para aprovechar estas arquitecturas de lagos de datos, Actian Data Platform se ha diseñado desde cero para ofrecer un alto rendimiento y escalabilidad en todas las dimensiones: volume de données, usuarios simultáneos y complejidad de las consultas. Actian Data Platform es una verdadera plataforma híbrida que puede desplegarse sur site , así como en múltiples nubes, incluyendo AWS, Azure y Google Cloud, lo que facilita a una organización migrar o descargar aplicaciones y datos a la nube a su propio ritmo.