Ciencia de datos: Acelere sus iniciativas de lago de datos con metadatos
Corporación Actian
15 de junio de 2020

Los lagos de datos ofrecen almacenamiento ilimitado de datos y presentan muchas ventajas potenciales para los científicos de datos en la exploración y creación de nuevos modelos analíticos. Sin embargo, estos datos estructurados, no estructurados y semiestructurados se mezclan, y los usuarios de datos a menudo pasan por alto o malinterpretan la información empresarial que contienen.
La razón es que muchas de las tecnologías utilizadas para implementar los lagos de datos carecen de las capacidades de información necesarias que las organizaciones suelen dar por sentadas. Por lo tanto, es necesario que estas empresas gestionen sus lagos de datos poniendo en marcha una gestión de metadatos eficaz que tenga en cuenta el descubrimiento de metadatos, la catalogación de datos y la gestión general de metadatos empresariales aplicada al lago de datos de la empresa.
2020 es el año en que la mayoría de los casos de uso de datos y analítica requerirán conectarse a fuentes de datos distribuidas, lo que llevará a las empresas a duplicar sus inversiones en gestión de metadatos. - Gartner 2019.
Cómo aprovechar su lago de datos con la gestión de metadatos
Para obtener valor de su lago de datos, las empresas necesitan contar tanto con usuarios cualificados (como científicos de datos o ciudadanos científicos de datos) como con una gestión eficaz de los metadatos para sus iniciativas de ciencia de datos. Para empezar, una organización podría centrarse en un conjunto de datos específico y sus metadatos relacionados. A continuación, aprovechar estos metadatos a medida que se añaden más datos al lago de datos. Establecer la gestión de metadatos puede facilitar a los usuarios del lago de datos la iniciación en esta tarea.
Éstas son las áreas de interés para gestionar con éxito los metadatos en su lago de datos
Creación de un repositorio de metadatos
El etiquetado semántico es esencial para descubrir metadatos empresariales. El descubrimiento de metadatos se define como el proceso de utilizar soluciones para descubrir la semántica de los elementos de datos en conjuntos de datos. Este proceso suele dar lugar a un conjunto de correspondencias entre distintos elementos de datos en un repositorio de metadatos centralizado. Esto permite a los usuarios de la ciencia de datos comprender sus datos y tener visibilidad sobre si están o no limpios, actualizados, son fiables, etc.
Automatización de la búsqueda de metadatos
Dado que a diario se añaden numerosos y diversos datos a un lago de datos, mantener la ingestión puede ser todo un reto. El uso de soluciones automatizadas no sólo facilita la búsqueda de información por parte de los científicos de datos o los CDS, sino que también facilita el descubrimiento de metadatos.
Catalogación de datos
Un catálogo de datos consta de metadatos en los que se almacenan diversos objetos de datos, categorías, propiedades y campos. La catalogación de datos se utiliza tanto para datos internos como externos (de socios o proveedores, por ejemplo). En un lago de datos, se utiliza para capturar un sólido conjunto de atributos para cada pieza de contenido dentro del lago y enriquece el catálogo de metadatos aprovechando estos activos de información. Esto permite a los usuarios de la ciencia de datos tener una visión del flujo de los datos, realizar análisis de impacto, tener un vocabulario empresarial común y una responsabilidad y una pista de auditoría para el cumplimiento.
Gobernanza de datos y análisis
La gobernanza de datos y análisis es un caso de uso importante cuando se trata de la gestión de metadatos. Aplicada a los lagos de datos, la pregunta "¿podría exponerse?" debe convertirse en una parte esencial del modelo de gobernanza de la organización. Por lo tanto, las empresas deben ampliar sus modelos existentes de gobierno de la información para abordar específicamente los casos de uso de la analítica empresarial y la ciencia de datos que se construyen en los lagos de datos. La gestión de metadatos empresariales ayuda a proporcionar los medios para comprender mejor las normas de gobernanza actuales que se relacionan con los tipos estratégicos de activos de información.
A diferencia de los enfoques tradicionales, el objetivo clave de la gestión de metadatos es impulsar un enfoque coherente de la gestión de los activos de información. Cuanto más coherente sea la semántica de los metadatos en todos los activos, mayor será la coherencia y la comprensión, lo que permitirá aprovechar el conocimiento de la información en toda la empresa. Al invertir en lagos de datos, las organizaciones deben tener en cuenta una estrategia de metadatos eficaz para los activos de información que vayan a aprovecharse del lago de datos.
Iniciar la gestión de metadatos
Como se mencionó anteriormente, la implementación de la gestión de metadatos en la estrategia de datos de su organización no sólo es beneficiosa, sino esencial para las empresas que buscan crear valor de negocio con sus datos. Los equipos de ciencia de datos que trabajan con diversas cantidades de datos en un lago de datos necesitan las soluciones adecuadas para poder confiar y comprender sus activos de información. Para apoyar esta disciplina emergente, la plataforma Actian Data Intelligence le ofrece todo lo que necesita para recopilar, actualizar y aprovechar sus metadatos a través de su plataforma de nueva generación.
Suscríbase al blog de Actian
Suscríbase al blog de Actian para recibir información sobre datos directamente en su correo electrónico.
- Manténgase informado: reciba lo último en análisis de datos directamente en su bandeja de entrada.
- No se pierda ni una publicación: recibirá actualizaciones automáticas por correo electrónico que le avisarán cuando se publiquen nuevas publicaciones.
- Todo depende de usted: cambie sus preferencias de entrega para adaptarlas a sus necesidades.