Arquitectura de datos

¿Qué es el almacenamiento en lagos de datos?

encontrar abundante información en un lago de datos

¿Qué es el almacenamiento en un lago de datos y por qué es importante? Un lago de datos es un repositorio construido por departamentos de TI de organizaciones privadas o proveedores de nubes públicas para el almacenamiento, procesamiento y mantenimiento de datos en cualquier formato y de cualquier fuente, como vídeo, newsfeeds, sus aplicaciones, web scraping, IoT, data marts, almacenes de datos o dispositivos móviles. En 2010, el entonces CTO de Pentaho, James Dixon, contrastó los data marts y los data lakes. Los data marts o almacenes de datos almacenaban y permitían el análisis de datos basándose en atributos de esquemas conocidos. Por otro lado, un lago de datos permite la interrogación basada en cualquier número de detalles contenidos en los datos adquiridos. El almacenamiento en lagos de datos permite almacenar casi cualquier tipo y tamaño de datos y, posteriormente, buscar algo sin estar seguro de lo que encontrará la búsqueda ni de cuál será exactamente el formato de los datos.

Almacenamiento en lagos de datos en una arquitectura de datos moderna

El diseño y la gestión del almacenamiento de datos han sido históricamente el aspecto más costoso y difícil de las TI. A medida que aumentaba la variedad de tipos y fuentes de datos, especialmente con la mayoría de organizaciones que presentan sus servicios digitalmente a través de Internet, esta complejidad ha llevado a modernizar la arquitectura de datos (personas, procesos y herramientas). Pensemos que hace unos años, cualquier dato tenía que ajustarse a un esquema rígido y, por tanto, estaba muy estructurado, mientras que hoy en día, los datos serán semiestructurados o no estructurados y, por tanto, a menudo sin formato.

Hace veinticinco años, 1 TB de almacenamiento de datos requería tres grandes bastidores de unidades de disco, cada uno del tamaño de una lavadora pequeña. Hoy en día, el almacenamiento en lagos de datos ofrece la oportunidad de disponer de petabytes de datos, ya sea físicamente en una pequeña caja de escritorio o, más probablemente, virtualizados en la nube. ¿Una buena noticia o una pesadilla para la seguridad y la gestión? ¿Qué información quiere extraer la organización de sus datos almacenados cuando los analiza? La información contenida en estos datos almacenados ayuda a las empresas a dar servicio a los clientes con productos excepcionales, pero entender qué datos tiene la organización, cómo, dónde y cuándo se adquirieron, y quién puede acceder a ellos son consideraciones arquitectónicas clave.

Las mejores prácticas para una arquitectura moderna de almacenamiento de lago de datos son:

  • Sepa lo que tiene utilizando una combinación de catálogos (piense en el sistema de carnés de biblioteca) con cada registro compuesto de métadonnées que definen rápidamente cada dato dentro del lago, su fuente, fecha de adquisición y otros atributos para simplificar las consultas de datos y el archivo.
  • Audite el software y gouvernance activamente lo que tiene, por qué lo tiene, si es legal la forma en que lo tiene o lo recibió, quién lo utiliza y cuándo puede eliminarlo.
  • Las listas de control de acceso (ACL) y otras prácticas de seguridad se diseñan y rigen para cada lago de datos (para obtener más información, consulte la sección sobre almacenamiento en el lago de datos de Microsoft Azure).
  • Los lagos de datos en la nube cifran los datos como parte de su admisión inicial. La habilidad necesaria para utilizar esta información o transferirla en un estado cifrado requiere conocimientos especializados de software y cambios en las aplicaciones y diseños de servicios. No sólo para los propietarios del lago de datos, sino también para cualquier socio o cliente que comparta información y tokens de seguridad. Dónde se almacenarán los tokens y quién tendrá acceso es una prioridad del diseño de la arquitectura de almacenamiento del lago de datos moderno.

¿Cuál es la diferencia entre un lago de datos y un almacén de datos?

El almacenamiento en almacenes de datos era la estrategia original de opción de almacenamiento en la que se sabía lo que se tenía, qué aspecto tenía y qué datos específicos le entregaba o necesitaba recuperar cada aplicación, base de datos, datamart y otros sistemas fuente. Dado que los almacenes de datos se centraban en la agregación de datos estructurados procedentes de bases de datos operativas departamentales, también estaban muy estructurados. Y aunque podían ser uno o dos órdenes de magnitud más grandes que la mayor base de datos de la que extraían datos, incluso los tamaños agregados jeu de données no superaban las decenas de terabytes, si acaso. Con el tiempo, a medida que nuevos tipos de datos requerían agregación histórica, flujos de clics en la web, documentos archivados, datos de videovigilancia y otros tipos y fuentes de datos, los almacenes de datos parecían poco adecuados, ya que no podían absorber el tamaño masivo de datos asociado a estas fuentes de datos no tradicionales. Además, otros repositorios de datos departamentales tenían funciones demasiado limitadas: los sistemas de gestión de documentos sólo servían para los documentos, los sistemas de videovigilancia sólo para el almacenamiento de vídeo, y así sucesivamente. La búsqueda de un repositorio de datos centralizado pero polifacético que no se quedara sin espacio de almacenamiento llevó a la introducción del almacenamiento virtual (VMWare, NetApp, etc.) y facilitó la creación de opciones de almacenamiento de datos en la nube y lagos de datos.

Para entender los lagos de datos, hay que volver a 1992, cuando Ralph Kimball y Bill Inmon acuñaron el término almacén de datos para describir las reglas y esquemas que controlarían los diseños de arquitectura de los almacenes de datos en las décadas venideras.

La definición de Wikipedia de almacén de datos destaca su uso y sus puntos débiles: "depósitos centrales de datos integrados procedentes de una o varias fuentes dispares. Almacenan datos actuales e históricos y se utilizan para crear informes de tendencias para informes de alta dirección, como comparaciones anuales y trimestrales."

En la siguiente tabla se destacan las principales diferencias entre el almacenamiento en almacenes de datos y el almacenamiento en lagos de datos:

Atributos Almacén de datos Lago de datos
Rasgos de los datos
  • Sistemas transaccionales relacionales, bases de datos operativas y aplicaciones de línea de negocio
  • Se conocen todas las fuentes antes de introducirlas en el almacén
  • Se utiliza mejor para datos que contienen información de identificación personal (IIP)
 

  • Admite datos no relacionales y relacionales de dispositivos IoT, sitios web, aplicaciones móviles, redes sociales y aplicaciones corporativas.
  • Todos los datos aceptados si pueden pasar la seguridad para entrar en el lago
  • No admite datos transaccionales si se compara con un almacén
Uso de datos Informes, gestión de transacciones, informatique décisionnelle, cuadros de mando Análisis y modelización, Inteligencia artificial, Perfiles
Coste, rapidez, fiabilidad Resultados de consulta más rápidos utilizando un almacenamiento de mayor coste Los resultados de las consultas son más rápidos que utilizando otras opciones de almacenamiento, pero el lago puede convertirse en un pantano si no se gestiona correctamente, anulando las capacidades de rendimiento.
Calidad de los datos Datos muy curados que sirven como versión central de la verdad Cualquier dato que pueda o no ser curado (es decir, datos en bruto)
Usuarios de datos Analistas empresariales, usuarios avanzados de líneas de negocio Científicos de datos, desarrolladores de datos y analistas de negocio (utilizando datos curados)
Habilidades necesarias para utilizar los datos Ingenieros de datos para arquitectura, puesta en marcha de EDW, gestión continua, administradores de bases de datos necesarios para crear scripts, gestionar usuarios, configuración y ajuste. Se necesitan ingenieros de datos para arquitectura, puesta en marcha de lagos, gestión continua, desarrolladores, analistas de datos y modeladores para perfilar, procesar y analizar datos.
Desafíos Dificultad para modificar esquemas o informes sin cambiar la estructura del almacén de datos.  

  • Puede convertirse en un pantano de datos si acepta cosas que no necesita.
  • Más difícil de asegurar.
  • Su uso es complejo y requiere un apoyo técnico importante
  • Es más fácil incumplir la normativa

Lo cierto es que necesitará y utilizará tanto almacenes de datos como lagos de datos. Las consultas estándar, rápidas y repetibles a partir de un jeu de données conocido y bien definidoavantage de las capacidades de un almacén de datos. La analítica y la modelización, cuando las fuentes de datos son dispares, requerirán un lago de datos. Pero considere, en 2017, Aberdeen hizo una encuesta que mostró cómo las empresas que utilizaron lagos de datos superaron a sus competidores en un 9%. La creación y el uso de los lagos de datos entrañan ciertas advertencias, pero las ventajas superan a los riesgos.

Actian Data Platform está diseñada para ofrecer un alto rendimiento y escalabilidad en todas las dimensiones: volume de données, usuarios simultáneos y complejidad de las consultas.

Almacenamiento en Microsoft Azure Data Lake

Microsoft Azure data lake storage Gen1 (ADLS Gen1) fue la respuesta a los clientes que necesitaban una forma de almacenar información en diversos formatos con fines analíticos. ADLS Gen1 proporcionó:

  • Almacenamiento elástico y escalable.
  • Azure HDInsight proporciona clústeres de Apache Hadoop, Spark, HBase y Storm.
  • Resiliencia integrada (aunque Azure Data lake Gen1 no la ofrecía en la misma medida que Azure Blob storage u otras opciones de almacenamiento de datos de Azure).
  • No hay límite en el tipo de datos que se almacenan en el lago de datos de Azure.
  • Almacenamiento cifrado de claves maestras o claves de bloque de datos en la bóveda de claves maestras de ADLS.
  • Fácil integración con la mayoría de las demás ofertas de Azure.
  • Software de análisis basado en Apache YARN con potencia de procesamiento bajo demanda.
  • Servicios de archivos Azure Active Directory integrados compatibles con OAuth 2.0, autenticación multifactor, listas de control de acceso, listas de acceso basadas en funciones y POSIX.
  • Gestión automatizada de eventos para activar análisis u otras actividades programáticas.

El almacenamiento en lagos de datos de Microsoft Azure no tiene costes iniciales, sino que permite pagar menos de lo habitual por grandes cantidades de almacenamiento al tiempo que se reducen los costes de transacción, lectura y escritura, de esos datos. ADLS es un enfoque de pago por uso, pero dada esta flexibilidad, es necesario supervisarlo para controlar los costes frente a los beneficios de ADL.

Microsoft Azure Data Lake Storage Gen2

A principios de 2019, Microsoft lanzó Azure data lake storage Gen2 (ADLs gen2) con almacenamiento ilimitado vinculado a un potente software analítico capaz de ejecutar búsquedas en paralelo sin importar el tipo de datos. ADLs gen2 es especialmente útil para analizar archivos BLOB (Binary Large Object) o de vídeo combinados con otros tipos de datos. Azure data lake storage Gen2 tiene todas las características de ADLS Gen1 más:

  • Azure Active Directory (AAD).
  • Sistema de archivos jerárquico (HFS) para agrupar archivos en cualquier número de sistemas operativos.
  • Almacenamiento georredundante de acceso de lectura para mejorar la continuidad del negocio.
  • Niveles BLOB de almacenamiento Hot, Cool y Archive para cumplir los requisitos de continuidad de negocio.
  • Reducción de los costes de almacenamiento hasta en un 50% con respecto a ADLS Gen1 o Azure Blob.
  • Simplificación de la transición de ADLS Gen1 a Adls gen2 habilitando un cambio desde un menú de control Adls gen2.
  • Aumentar enormemente el rendimiento de las consultas y la carga de datos mediante el uso de métadonnées para rastrear cada instancia y atributo de la información (piense en cómo se facilitó la búsqueda de un libro en una biblioteca al automatizarse los catálogos de libros).
  • Asegurar los datos a nivel de directorio y archivo haciéndolos compatibles con POSIX o mediante listas de control de acceso, acceso basado en roles (RBAC) y otros métodos de mejores prácticas.
  • Cifrado integrado para données au repos o en tránsito vinculado a claves gestionadas por el cliente o mantenidas en Microsoft Key Vault.

Planificación para Microsoft Azure Data Lake Storage Gen2

Existen numerosos métodos de adquisición e ingestión de datos y una gran variedad de usos al servicio de una comunidad de clientes global. El reto consiste en mantener un único lago de datos para satisfacer cualquier petición analítica o crear un entorno de almacenamiento de múltiples lagos de datos.

Los costes de ADLs gen2 son una combinación de costes de almacenamiento y transacción. Se puede encontrar orientación aquí o preguntando al soporte técnico de Microsoft Azure. Muchos servicios de Azure, como Azure Stream Analytics, IoT Hub, Power BI y Azure Data Factory, ahora forman parte de Azure data lake storage Gen2.

La seguridad de los datos es primordial, y ADLs gen2 cumple la norma ISO y es compatible con la mayoría de cortafuegos o configuraciones de red, como se puede ver en el material de orientación de Microsoft. Otra práctica recomendada crucial para gestion des données es garantizar que los datos sean accesibles, independientemente del evento de continuidad. Los datos almacenados en ADLs gen2 se replican tres veces, y se puede mejorar la resiliencia eligiendo las siguientes opciones, como se ve en la página web de redundancia de Azure Storage de Microsoft:

  • Almacenamiento redundante local (LRS).
  • Almacenamiento redundante por zonas (ZRS).
  • Almacenamiento georredundante (GRS).
  • Almacenamiento georredundante de acceso de lectura (RA-GRS).

Almacenamiento en lagos de datos de Google y AWS

Aunque este artículo se ha centrado en Azure, Google y AWS ofrecen excelentes alternativas.

Google Cloud data lake ofrece una solución escalable basada en Google Cloud Storage. Existen dos servicios ingestion de données : Dataflow para la transferencia y el aprovisionamiento automatizados de datos y

Cloud Data Fusion gestione pleinement votre ingestion de données et gouvernance. Pour faciliter une analyse rapide, le lac de données Google utilise Dataproc pour moderniser l'architecture des données, ETL, et les produits d'offre sur Apache Spark. La principal herramienta de análisis es BigQuery para el aprendizaje automático (ML) o la investigación de petabytes de datos a través de ANSI SQL.

Las ofertas de almacenamiento de lago de datos de AWS, similares a las de Google y Microsoft Azure, incluyen servicios administrados y varias opciones de almacenamiento en la nube y herramientas analíticas. Amazon S3 (S3 son las siglas de Simple Storage Service) proporciona el repositorio central de almacenamiento elástico para Amazon Data Lake Storage y se utiliza ampliamente como repositorio externo de datos en la nube no solo para Amazon Data Lakes, sino también para la mayoría de cualquier entrepôt de données cloud como plataforma de puesta en escena e ingestión de datos. Mediante un enfoque de consola, los usuarios pueden crear lagos de datos sobre la marcha integrando datos de varias fuentes en una ubicación en la nube de S3. AWS data lake es totalmente compatible con AWS Lambda. Los lagos de datos requieren un potente motor de búsqueda para encontrar información, y esto se realiza a través de Amazon OpenSearch Service. La seguridad, la autenticación y el sistema de gestión de gouvernance se ejecutan mediante Amazon Cognito. La transformación y el análisis de datos se realizan a través de Amazon Glue y Amazon Athena.

Los almacenes de datos cumplen una función de gestion des données rápida, columnar o entendida gestion des données y la investigación. Los lagos de datos son opciones de almacenamiento en la nube para diversos datos, incluidos los almacenes de datos, que se etiquetan para facilitar su gestión con metatags. Lamentablemente, la elección del lago de datos no está clara y depende de las necesidades de la organización. Las mejores prácticas sugieren que ponga a prueba las alternativas o se someta a un minucioso conjunto de ejemplos de escenarios de uso para asegurarse de que la solución se ajusta a sus necesidades digitales y analíticas.

Actian es una plataforma de datos entièrement géré

Está diseñada para ofrecer un alto rendimiento y escalabilidad en todas las dimensiones ( volume de données, usuarios simultáneos y complejidad de las consultas) a una fracción del coste de las soluciones alternativas. Actian Data Platform se puede implementar sur site y en varias nubes, como AWS, Azure y Google Cloud, lo que le permite migrar o descargar aplicaciones y datos a la nube a su propio ritmo.