Análisis de datos

Análisis de lagos de datos

encontrar abundante información en un lago de datos

Análisis de lagos de datos: ¿Qué es y por qué es importante?

El procesamiento de datos tradicional se está convirtiendo en un proceso de datos heredado en el contexto de la gestión de casos de uso de big data, edge y datos en tiempo real, cada vez más críticos para el negocio. Hoy en día, las tecnologías de Big Data, cloud y edge computing han transformado muchas prácticas lentas, limitadas y manuales gestion des données en prácticas de transformación digital. La complejidad de gestionar grandes volúmenes de datos relacionados estructurados, semiestructurados y no estructurados tiene que seguir automatizándose y simplificándose en la medida de lo posible. Los retos de Big Data están aquí para quedarse, y el lugar donde se generan y procesan los datos, y la velocidad a la que crecen, están cambiando rápidamente. Las organizaciones tienen que adoptar las capacidades de Big Data y análisis de datos o arriesgarse a convertirse en algo opcional para sus clientes.

Tecnologías como diversos almacenes de datos y lagos de datos ayudan a gestionar Big Data. A medida que los lagos de datos han pasado de Hadoop y los entornos propietarios locales a la nube, han ayudado a superar las limitaciones de los almacenes de datos y pueden trabajar junto con ellos para obtener una solución más valorada.

Azure for Data Analytics o Azure Data Lake Analytics (ADLA) de Microsoft es una solución de lago de datos que funciona en una arquitectura de procesamiento de datos distribuida y basada en la nube para ayudar a las organizaciones a gestionar sus cargas de trabajo de Big Data. ¿Qué son los datos sin la analítica? Los datos y la analítica de Azure juntos constituyen una solución ganadora para las necesidades de apoyo a la toma de decisiones de las organizaciones.

¿Qué es el análisis de lagos de datos?

Los datos almacenados en un almacén de datos están diseñados y son aptos para fines específicos; los datos almacenados en los lagos de datos son aptos para fines indefinidos o cualesquiera. Los almacenes de datos almacenan datos procesados y refinados, mientras que los lagos de datos almacenan datos sin procesar. La analítica de los almacenes de datos y la analítica de los lagos de datos se diferencian en que los datos ya están procesados para un fin específico mediante la analítica de los almacenes de datos. Cuando se utiliza la analítica de lago de datos, los datos se procesan para un uso concreto como datos de entrada para un almacén de datos.

El análisis de lagos de datos es un concepto que existe desde la creación de Hadoop. Hadoop es una solución de código abierto para almacenar y procesar Big Data. Hadoop cuenta con un sistema de archivos distribuido (HDFS), una forma de gestionar, supervisar recursos y programar tareas (YARN), mapeo de datos para resultados de salida y una biblioteca Java estándar para respaldar los resultados necesarios en la toma de decisiones sobre datos. Hadoop consta de muchas herramientas y aplicaciones para recopilar, almacenar, procesar, analizar y gestionar Big Data. Hadoop y la analítica de los lagos de datos son componentes complementarios de las arquitecturas de los lagos de datos. Hadoop es una plataforma para construir lagos de datos. Aunque Hadoop es una plataforma primaria para los lagos de datos, Hadoop podría ser sustituida como plataforma para los lagos de datos en el futuro a medida que evolucione la tecnología.

Piense en la arquitectura en términos sencillos: Hadoop es la plataforma, un lago de datos se construye sobre la plataforma, la analítica del lago de datos extrae datos para cualquier propósito, y un almacén de datos puede ser uno de esos propósitos.

Los servicios de análisis de Azure permiten analyse des données big data. Inicialmente, la analítica de lago de datos constaba de tres componentes clave:

Un sistema de archivos distribuido - a menudo denominado almacenamiento de objetos;
Herramientas de procesamiento y análisis de datos - en el caso de Hadoop: Hive, Pig, Mahout e Impala proporcionan un conjunto de herramientas de análisis;
Y, para la gestión global del lago de datos plateforme d'analyse - con Hadoop, YARN.

A diferencia de la plateforme d'analyse de lagos de datos Hadoop, que dominó en su día pero que ahora se está desvaneciendo, las otras tres plataformas principales de análisis de lagos de datos son servicios de nube pública en lugar de plataformas en gran medida locales. Aunque Hadoop puede desplegarse actualmente en la nube, quien lo haga no se encuentra en una situación de greenfield y se ve obligado a evaluar la posibilidad de recurrir a ofertas de nube pública, al menos para los siguientes almacenes de objetos subyacentes.

  • Azure Data Lake Analytics (ADLA).
  • Análisis de lagos de datos de Amazon Web Services (AWS).
  • Google Data Lake Analytics (GDLA).

En todos los casos, existen conjuntos equivalentes de procesamiento de datos, herramientas de análisis y sistemas de gestion des données subyacentes. Para Hadoop, es el sistema de archivos Hadoop, HDFS, pero los equivalentes en la nube son:

  • Almacenamiento de objetos en la nube.
  • Azure Data Lake Store (ADLS).
  • AWS Simple Storage Service (S3).
  • Google Cloud Store (GCS).

En muchos casos, se puede seguir utilizando YARN, Hive, Pig y otras herramientas Hadoop en estos almacenes de objetos en lugar de HDFS. El uso de los almacenes de objetos de valor tiene que ser diseñado, creado y entregado para la organización y produce una gran combinación de estandarización del almacenamiento de datos subyacente al tiempo que permite flexibilidad para utilizar una amplia gama de herramientas de análisis de datos.

Los análisis de lagos de datos descubren y crean relaciones, responden a preguntas empresariales, trazan nuevas innovaciones en ciencia e ingeniería, predicen resultados, automatizan y permiten tomar decisiones. Se da un significado factual a los datos, independientemente de la fuente, y luego se descubre información y conocimiento con el fin de mejorar la capacidad de la organización para tomar decisiones rápidas y oportunas que respalden sus actividades con sus clientes. En general, la analítica de datos, especialmente analyse des données big data y el edge computing, son factores y capacidades esenciales que las organizaciones deben aprovechar hoy en día. Los datos impulsan de forma más eficaz y precisa tanto las decisiones automatizadas como las humanas.

Creación de valor con plataformas de Big Data

Las tecnologías de Big Data extraen, analizan, transforman y cargan grandes cantidades de datos que son demasiado grandes para el software de aplicación de procesamiento de datos tradicional para el apoyo a la toma de decisiones estadísticas en toda una organización. Estos datos extraídos de diversas fuentes se utilizan para comprender las condiciones del mercado, la inteligencia de las redes sociales, mejorar la captación y retención de clientes, ofrecer perspectivas históricas y otros usos para informatique décisionnelle general. Cuantos más datos se recopilen y transformen para la toma de decisiones, más valiosos serán para una organización.

Pero lo que hace valiosas a cada una de las plataformas AWS, ADLS y GCS es la capacidad de utilizar las herramientas de integración, gestión y análisis de datos de Azure, AWS y Google, además de ofertas equivalentes de terceros atraídas a las plataformas por la gravedad de los tres grandes proveedores de servicios en la nube.

Lo que falta en estas plataformas es la posibilidad de adquirir un servicio virtual de análisis de lago de datos que abarque varios proveedores de nube y entornos locales. Además, incluso para cada proveedor de análisis de lago de datos en la nube, el énfasis en dejar los datos sin procesar en su estado natural hasta que un grupo y un proyecto específicos quieran utilizarlos, junto con la naturaleza técnica de los grupos que utilizan el análisis de lago de datos, ha dejado obsoleta la funcionalidad de integración dentro de estas plataformas. Este reto puede abordarse con arquitecturas integradas a propósito que alimenten los almacenes de datos empresariales con fines específicos.

Con la integración del aprendizaje automático (ML), la inteligencia artificial (IA) y informatique décisionnelle (BI) en una solución global de plataforma de Big Data, las capacidades y necesidades de Azure analyse des données big data se hacen más evidentes y potentes para la organización. La creación y realización de valor comienza por tener en mente el objetivo final de la solución que se está construyendo utilizando tecnologías de Big Data.

Capacidades clave de Azure Data Lake Analytics

Los lagos de datos tienen capacidades clave para extraer datos de varias fuentes, almacenar grandes cantidades de datos, transformar datos, proporcionar seguridad y gouvernance, servicios analíticos y herramientas analíticas de lago de datos. La arquitectura de análisis de lago de datos de Azure presenta las siguientes ventajas:

  • Compatibilidad con HDFS y optimizado para el rendimiento y alto rendimiento.
  • Tamaño de datos ilimitado: almacenamiento de objetos grandes binarios (BLOB) para datos de texto y binarios.
  • Tolerancia a los fallos, respuesta rápida a los fallos del sistema.
  • Alta disponibilidad y reprise après sinistre.
  • Habilitación de Hadoop en la nube.
  • Integración con Azure data lake analytics active directory para necesidades de acceso basadas en roles.
  • Compatibilidad con HIVE y Spark.

Añada las capacidades de análisis del lago de datos de Microsoft Azure, que incluyen la introducción de U-SQL. U-SQL, creado por Microsoft principalmente para Azure, es un lenguaje de consulta y procesamiento de big data que combina la construcción y las capacidades de SQL y C#. Es un lenguaje sencillo de utilizar que incluye tipos y expresiones enriquecidos. Además de trabajar sobre datos no estructurados, U-SQL proporciona un catálogo general métadonnées en forma de base de datos relacional. El metacatálogo U-SQL funciona como HIVE y admite esquemas de bases de datos, tablas, índices, vistas, funciones, procedimientos y ensamblados .Net. Además de U-SQL, R, .Net y Python también son compatibles con Azure data lake analytics.

Además de la potencia de U-SQL, Microsoft data lake analytics, otras capacidades clave incluyen:

  • Desarrollos más rápidos utilizando U-SQL.
  • Compatibilidad con todos los datos de Azure.
  • Rentabilidad.
  • Escalado dinámico.
  • Optimización inteligente.

Las capacidades de Microsoft Azure data lake analytics también incluyen servicios complementarios como:

  • Cosmos DB - Servicio de base de datos NoSQL multimodal.
  • Azure SQL Data Warehouse - Almacén de datos empresariales en la nube Base de datos Azure SQL - Servicio gestionado de base de datos relacional.
  • Azure Data Factory - Servicio de extracción/recuperación, transformación, carga/salida (ELT) e integración de datos.
  • Azure Analysis Services: motor de análisis gestionado para la creación de modelos.

La capacidad de las organizaciones para tener éxito depende de sus activos y de las capacidades de esos activos. Las organizaciones tienen que adquirir la capacidad de gestionar sus Big Data y luego convertir el conocimiento en una capacidad estratégica. Las capacidades enumeradas de Azure data lake analytics se pueden habilitar de forma única dentro de una organización para crear una ventaja competitiva. Amazon y Google ofrecen arquitecturas análogas, funcionalidad, y un conjunto diverso de ofertas de terceros para construir amplios ecosistemas para Big Data moderno y cas d'usages analytiques. Las organizaciones deben evaluar sus fortalezas, debilidades, oportunidades y amenazas (DAFO) y desarrollar un plan estratégico, táctico y operativo para tener éxito con las habilidades y capacidades de Big Data.

Conclusión

Muchas organizaciones tienen dificultades para comprender las necesidades de sus clientes. Las organizaciones recurren a las opiniones expertas de sus empleados, realizan encuestas y utilizan otros medios. Hoy en día, una de las formas más eficaces es utilizar los datos de todas y cada una de las fuentes posibles para analizar cualquier proceso empresarial con el fin de que cualquier persona de la organización pueda tomar decisiones eficaces, eficientes y económicamente procesables. Hay que analizar los compromisos omnicanal y la recopilación de datos de todas las fuentes. Azure Data analytics y las tecnologías de apoyo pueden ayudar en esta compleja tarea de utilizar Big Data y a los expertos de la organización para tomar mejores decisiones sobre los clientes.

Recientemente, la iniciativa de Apache para construir un lago delta que abarque múltiples lagos de datos ha sido un foco de atención importante. Dado que se ha construido sobre Spark, también se ha añadido la capacidad de gestionar el análisis de datos en flujo, no sólo el análisis por lotes. Este es el enfoque adoptado por Databricks con su lago delta.

La respuesta equivalente a la brecha de funcionalidad de las plataformas actuales de análisis de datos es hacer que la entrepôt de données cloud sea un mejor destino descendente para el análisis de datos que hace el análisis de datos dentro del lago de datos.

Este ha sido el enfoque de los almacenes entrepôt de données cloud datos en la nube de proveedores como Actian, que se están integrando en sus productos de integración de datos para crear un front-end flexible de esquema aà la volée para su entrepôt de données cloud. Esto hace lo mismo que un lago delta, pero se centra en cas d'usages analytiques operativos para el análisis del lago de datos frente a casos de proyectos de investigación previos a las cargas de trabajo cotidianas y los procesos empresariales.

Actian Data Platform puede ayudar a las organizaciones con una arquitectura basada en resultados para extraer el poder de la analítica de los lagos de datos para el apoyo a la toma de decisiones oportunas de la organización.