Los datos son el componente esencial de cualquier organización. Cuando surgen retos que ponen en riesgo la capacidad de las organizaciones para utilizar los datos correctamente, la organización corre el riesgo de fracasar. El riesgo debe evitarse, transferirse, mitigarse o aceptarse. La gestión de riesgos basada en datos es una capacidad necesaria para todas las organizaciones. Hay que evitar a toda costa aceptar los riesgos para los datos y hacer frente a las consecuencias de que algo ocurra.
El lago de datos es un repositorio central de datos procedentes de diversas fuentes que permite a las organizaciones almacenar todos sus datos brutos, estructurados y no estructurados. Los datos se almacenan tal cual, sin tener que volver a formatearlos o estructurarlos. Las organizaciones necesitan lagos de datos pararealizar investigaciones, análisis y mejorar el apoyo a la toma de decisiones dentro de la organización. Mejorar el apoyo a la toma de decisiones puede crear una ventaja competitiva frente a sus homólogos y, en general, mejorar el servicio a sus clientes.
Comprender y mejorar los productos y servicios, el análisis de los clientes, la productividad de los empleados y la eficiencia y los resultados operativos generales es la base de todas las estrategias, tácticas y operaciones de la organización. La mejor forma de conseguirlo es utilizar los datos como apoyo a la toma de decisiones. Los datos contenidos y gestionados de forma eficiente y eficaz en un lago de datos pueden ayudar a superar los retos en estas áreas. Los datos utilizados de esta manera ayudan a potenciar la transformación digital en toda la organización.
Qué es la arquitectura del lago de datos en la nube
Una arquitectura de lago de datos en la nube es una serie de módulos, algunos obligatorios y otros opcionales, que definen un repositorio de datos común a nivel de grupo, departamento o empresa para reunir todo tipo de datos en su formato nativo para que varios grupos los procesen y analicen.
Los conceptos fundamentales de la arquitectura del lago de datos incluyen:
- Seguridad - Esta es siempre una preocupación. Como cualquier otra arquitectura de TI actual, debe implementarse en cada capa del Data Lake para gestionar amenazas y vulnerabilidades.
- ingestion de données et Movement - Hay que gestionar los datos y los tipos de datos procedentes de distintas fuentes para cargarlos en el lago de datos desde sistemas por lotes, en tiempo real o de otro tipo.
- gouvernancedatos: la gouvernance, el riesgo y el cumplimiento (GRC) deben gestionarse para garantizar la usabilidad, integridad, confidencialidad y disponibilidad de los datos en una organización, teniendo en cuenta tanto las directrices internas de la empresa como los mandatos normativos externos.
- Calidad de los datos - Siempre hay que mantenerla para obtener valor empresarial de los datos, mala calidad = malas decisiones.
- Análisis de datos: el análisis para la toma de decisiones es la principal razón de ser de un lago de datos.
- découverte de données - Hay que descubrir los datos antes de utilizarlos, sobre todo para el análisis. Hay que identificar y gestionar las fuentes críticas de datos.
- Recuperación de datos - Para su uso en lagos de datos relacionados con la continuidad del negocio, la recuperación de datos debe planificarse y probarse.
- Auditoría de datos - La auditoría es necesaria para la gestión de riesgos, la gouvernance y la creación de normas de cumplimiento.
- Almacenamiento de datos - Al utilizar la nube y/o una solución híbrida, debe prestarse atención a la gestión de la escalabilidad del almacenamiento.
- Linaje de los datos - Hay que gestionar el origen de los datos para garantizar que ingestion de données se realiza de forma eficaz.
- Exploración de datos - Para todos los análisis, la exploración de datos debe realizarse para identificar el jeu de données correcto.
- Coordinación y colaboración - El lago de datos es un almacén de datos de la organización; comprender el uso de los datos requiere colaboración y coordinación en toda la organización con varios equipos y partes interesadas.
El requisito básico para una arquitectura de lago de datos es una arquitectura de almacenamiento de datos escalable subyacente.
- Inicialmente, se trataba de Hadoop con Hadoop Data File System o HDFS, pero ha sido sustituido por el almacenamiento de objetos, generalmente en AWS (S3), Azure (ADLs) y Google (GCS). Esto debería ser un único repositorio compartido de datos.
- En todos los casos, tiene que haber un sistema de gestión robusto pero mínimo; YARN se convirtió en el estándar aquí y ha migrado de Hadoop a los entornos de almacenamiento de objetos en la nube también. Las capacidades de orquestación y programación de trabajos deben ser características clave.
- Prácticamente todas las arquitecturas de lagos de datos se ejecutan ahora en la nube, desacoplan la computación del almacenamiento para soportar la escalabilidad y los modelos de pago por uso, soportan múltiples lenguajes de programación, incluido el soporte de Hive y Spark y SQL.
Aparte de estos pilares fundamentales, las consideraciones adicionales sobre el diseño de la arquitectura de los lagos de datos dependen de quién utilizará el sistema y de qué tipo de trabajo. Inicialmente, los lagos de datos se consideraban una herramienta para los científicos de datos que trabajaban con datos en bruto no estructurados y semiestructurados. Así pues, la arquitectura de los lagos de datos se centraba en herramientas de desarrollo para la ingestion de données, el procesamiento, la consulta y el análisis. Por lo general, los usuarios del lago de datos son roles acostumbrados a realizar trabajos analíticos con bases de datos. Sin embargo, debido al valor de los lagos de datos y las herramientas emergentes, los usuarios de los lagos de datos pueden ampliarse a otros usuarios.
La arquitectura de los lagos de datos se centra en el diseño para la entrada rápida de datos en bruto, por lo que no se dedica mucho esfuerzo a masajear los datos en la entrada. Las otras tres áreas requieren consideraciones de diseño vinculadas a qué datos dentro del lago son el punto focal y la tarea real en cuestión.
La arquitectura de lago de datos de AWS, la arquitectura de lago de datos de Azure, la arquitectura de lago de datos de Hortonworks y la arquitectura de lago de datos de Spark siguen todos estos conceptos y requisitos para los lagos de datos. Cada una tiene un enfoque coherente, pero difiere en las ofertas totales disponibles utilizando sus tecnologías. Las organizaciones deben evaluar cada una de ellas en función de sus necesidades.
Consideraciones sobre el diseño de lagos de datos
Las organizaciones deben tener una visión global en mente con el uso de su lago de datos. La intención o estrategia de la organización debe impulsar el diseño y el uso de un lago de datos. Los buenos diseños facilitan las decisiones futuras dentro de la arquitectura del lago de datos.
Los lagos de datos deben diseñarse con las siguientes características:
- Habilitación de la nube con isolement la carga de trabajo.
- Múltiples niveles: ingesta, operaciones, procesamiento, destilación, almacenamiento, información.
- Capacidad para añadir y admitir usuarios sin afectar al rendimiento durante diversas cargas de trabajo.
- Servicios únicos de etiquetado métadonnées para el entorno de almacenamiento de objetos.
- Las herramientas eficaces extraen, cargan, transforman y consultan datos sin afectar al rendimiento.
- Arquitectura de datos compartidos multicluster.
- Escalado independiente y estructurado de recursos informáticos y de almacenamiento.
En muchos casos de uso para la búsqueda y consulta de documentos para investigadores en, por ejemplo, farmacia, medicina o cualquier área del mundo académico, se basan en un motor de búsqueda y utilizan algún lenguaje de consulta que puede analizar rápidamente grandes conjuntos de documentos. En otros casos, los datos pueden estar semiestructurados, por ejemplo, los datos móviles y de IoT. Incluso puede existir la necesidad de construir un mapeo relacional entre varios conjuntos de datos IoT; por ejemplo, si se dispone de sensores de presión y temperatura vinculados a la medición de un volumen de algo, la ecuación PVT representa un mapeo relacional de tablas de datos o quizás, en su lugar, los datos de cada una de estas fuentes se transmiten al Data Lake y se procesan tanto en tiempo real como posteriormente como conjuntos de datos agregados con una relación entre ellos.
Independientemente de la estructura de los datos, una de las tareas analíticas fundamentales que llevan a cabo los científicos de datos es alguna forma de IA, ya sea la cognición de patrones como el reconocimiento facial en datos de vídeo o traitement du language naturel en documentos o flujos de audio.
Los casos de uso que se acaban de describir y que manejan los científicos de datos principalmente en proyectos de investigación es precisamente lo que ha diferenciado históricamente la arquitectura de lago de datos de la arquitectura de almacén de datos o base de datos. Sin embargo, algunos aspectos de lo que generalmente se encuentra en una arquitectura de almacén de datos están apareciendo en las versiones en nube de las arquitecturas de lago de datos. En primer lugar, la democratización de los datos ha sido más una afirmación que un hecho con los Data Lakes. Su uso estaba limitado a científicos e ingenieros de datos, excluyendo a los usuarios empresariales. Además, tendían a ejecutarse muy lentamente en comparación con la velocidad de los retornos de consulta de Data Warehouse y los análisis ad hoc. Y por último, pero lo más importante, las primeras arquitecturas de lagos de datos no contaban con mucho soporte de seguridad integrado ni con gouvernance datos ni catalogación de lo que había en el lago de datos.
Todas las arquitecturas de lago de datos en la nube aprovechan las características de seguridad intrínsecas de las plataformas en la nube de AWS, Azure y Google en las que se ejecutan. Todas disponen de algún tipo de servicio atalogue de données y pipeline de données para ayudar con el flujo de procesamiento de datos en múltiples etapas. Además, muchas implementaciones de la arquitectura de lago de datos proporcionan herramientas para desarrollar y aprovechar métadonnées asociadas a los distintos conjuntos de datos del lago para una serie de usos que van desde gestion des données maestra gestion des données hasta operaciones semánticas como la indexación, la ontología y medios para garantizar no solo una mayor calidad de los datos, sino un uso óptimo de solo los datos que necesita por función.
Adopción de arquitecturas de lagos de datos
La adopción de la arquitectura del lago de datos debe hacerse por etapas, cada una de ellas con un tiempo de amortización rápido o una ganancia rápida para la organización. Utilice los datos disponibles y, a medida que el proyecto madure y se descubran lagunas en los datos, madure el lago de datos.
Etapa 1 - Capturar, ingerir e inventariar los datos y las fuentes y, a continuación, visualizar cómo pueden utilizarse los activos de datos actuales para la organización. Mientras se hace esto, decidir y crear métodos, prácticas y enfoques para la incorporación más rápida de nuevos descubrimientos de datos.
Etapa 2 - Construir los modelos analíticos para transformar y realizar las tareas de análisis de datos. Tenga en cuenta los resultados que respaldan los datos. Las organizaciones pueden probar diferentes herramientas y aprovechar la inteligencia artificial (IA).
Después de la etapa 2, hay que hacer llegar los datos a los consumidores, a los responsables de la toma de decisiones y a cualquier otra parte interesada en los datos. Aprovechar el lago de datos con un almacén de datos empresarial puede permitirlo.
La última etapa, pero no la final, es la mejora continua. Mejorar las capacidades empresariales del lago de datos. Esto debería incluir la gestión del ciclo de vida de los datos y la información. Recuerde que la tecnología de lago de datos sirve para mejorar los resultados empresariales, por lo que es fundamental medir las mejoras en los resultados empresariales en relación con el uso de un lago de datos.
Tenga cuidado con tener un proyecto de Data Lake IT que cree "pantanos de datos" o datos inutilizables. Aunque se puede obtener valor de todos los tipos de datos, asegúrese de que haya valor. Los datos que no tienen utilidad afectan al rendimiento tanto de la infraestructura de TI como de las personas que utilizan los datos para tomar decisiones. Cada fase de adopción debe tener en cuenta la relevancia empresarial de los datos que se utilizan. Asegúrese de que los datos tienen valor para apoyar la toma de decisiones en la organización.
Conclusión
La gestión del riesgo de los datos es responsabilidad de todas las funciones de la empresa: marketing, ventas, recursos humanos, operaciones, aplicaciones, jurídico, etc. Adoptar un enfoque proactivo identificando el riesgo, añadiendo controles y preparándose para la acción puede suponer una gran diferencia cuando sea necesario. No convierta la gestión del riesgo de los datos en una ocurrencia tardía y en algo que no merezca la pena invertir. La gestión del riesgo de los datos forma parte del coste de hacer negocios y debe entenderse como tal. Tenga cuidado con los atajos y no sea estratégico y exhaustivo con el enfoque.
Para gestionar el riesgo de los datos es fundamental el uso de tecnología que pueda ayudar. La tecnología Data Lake puede ayudar a gestionar y mejorar el uso de los datos en toda la organización. El resultado es una mejora en las interacciones con los clientes, una mejora en la prestación de servicios, una mejora en el diseño de servicios y, en general, una mejora en las operaciones diarias de una organización. Identifique y defina las razones y los objetivos de la organización en materia de datos para el lago de datos y téngalos siempre presentes durante el proyecto.