Gestión de datos

Extracción de Datos: Guía definitiva para extraer datos de cualquier fuente

Filas de archivos virtuales en un atalogue de données, que contribuyen a una potente gestion des données.

Extracción de datos: La guía definitiva para extraer datos de cualquier fuente

Extracción de datos es un término utilizado para describir el movimiento de datos desde un conjunto de datos de origen. La extracción de datos suele ser el primer paso de un proceso de extracción, transformación y carga(ETL) de un pipeline de données. Los ingenieros de datos se encargan de realizar la extracción de datos, alimentando las funciones de análisis de datos y aprendizaje automático (ML).

partage des données

Hay muchas formas de compartir datos para su extracción. Los datos pueden asegurarse mediante encriptación para protegerlos de robos en reposo y en tránsito. El modelo de publicación y suscripción es una forma de compartir datos. Un método menos sofisticado consiste en enviar archivos a las fuentes consumidoras mediante protocolos como FTP y SFTP.

Los mecanismos pull permiten a los consumidores descargar datos desde un navegador web utilizando HTTP, de modo que los administradores de red no necesitan abrir sockets que pueden convertirse en un potencial vector de ataque de los piratas informáticos. La descarga desde un sitio web crea un archivo dentro del lado consumidor de la conexión, dentro del cortafuegos.

Actian y la extracción de datos

Actian Data Platform proporciona una experiencia unificada para la ingesta, transformación, análisis y almacenamiento de datos. Actian Data Platform puede configurarse y cargarse en cuestión de minutos para obtener acceso instantáneo a sus datos analíticos. La integración de datos integrada, el rendimiento ultrarrápido y la flexibilidad de implementación en varias nubes o en local le permiten analizar sus datos dondequiera que residan.

Fuentes de extracción de datos

Una vez extraídos los datos, pueden limpiarse, transformarse y cargarse en bases de datos analíticas. A continuación se muestran algunos ejemplos de cómo se extraen y organizan los datos por tipo de fuente de datos:

guardar icono azul

Archivos planos

Los archivos planos son bidimensionales y están compuestos por bytes de datos. Se almacenan en el sistema operativo o en servicios de almacenamiento en la nube. Su estructura se basa en un flujo de bits que incluye cadenas de caracteres especiales para indicar el final del archivo (EOF) o los saltos de línea (CRLF), lo que permite tratarlos como un conjunto de registros. Cada registro puede tener una longitud fija o variable, determinada por el carácter CRLF. Para separar los campos dentro de un registro, se utiliza una cadena delimitadora, como por ejemplo la coma en un archivo CSV. Las herramientas de extracción de datos reconocen este formato, lo que facilita su lectura. Estas herramientas procesan el archivo campo a campo, asignando los tipos de datos según las instrucciones. A diferencia de los flujos de datos, los archivos planos siguen un ciclo de vida más definido: creación, apertura, adición, cierre y eliminación.

La mayoría de las aplicaciones y funciones del sistema operativo generan archivos de registro que se utilizan para el control de excepciones, auditorías y como fuente de datos analíticos. Estos archivos de registro suelen tener formato plano. Dado que habitualmente están configurados con periodos de retención limitados para optimizar el uso del espacio de almacenamiento, es necesario extraerlos antes de que dicho periodo expire o sean sobrescritos.

icono azul de gráfico de barras para actian

Flujos de datos

Los flujos de datos se diferencian de los archivos planos en que no tienen un final definido; por tanto, una vez abiertos, la utilidad de extracción de datos permanece activa a la espera de nuevos datos. Estos flujos son gestionados mediante aplicaciones como Apache Kafka, que ingiere los datos desde la fuente, los almacena en una cola, y los pone a disposición de herramientas de integración o aplicaciones consumidoras suscritas al flujo. A medida que se generan los datos, se ingieren y se entregan en tiempo real mediante el gestor de flujos. Este modelo de publicación reduce los costes de administración y evita desarrollar código adicional en las aplicaciones consumidoras.

Algunas aplicaciones requieren ser notificadas de inmediato ante cualquier cambio, como los sistemas de negociación bursátil o los sistemas de conducción automatizada. Sin embargo, la mayoría de los sistemas pueden tolerar un breve retraso. En lugar de notificar cada cambio —lo cual puede ser costoso en términos de recursos de CPU—, suele ser más eficiente diseñar sistemas consumidores que extraigan los datos periódicamente en lotes o micro-lotes. Este enfoque de extracción de datos evita la sobrecarga de los servidores consumidores ante grandes volúmenes de datos. No todas las aplicaciones toleran la latencia, por lo que las cargas de trabajo en streaming suelen desplegarse en entornos en la nube.

icono de capas

Aplicaciones

Todas las aplicaciones están diseñadas para recibir datos, procesarlos y generar resultados. Las aplicaciones heredadas suelen utilizar formatos de datos no estándar, lo que obliga a los desarrolladores a interpretar la información directamente desde archivos planos que contienen, por ejemplo, informes de salida. Por el contrario, las aplicaciones web modernas están concebidas para integrarse en sistemas de mayor envergadura y utilizan habitualmente formatos estándar autodescriptivos como JSON, que incluyen metadatos con información sobre nombres de campos, formatos y longitud.

icono azul de base de datos

Bases de datos

Los datos pueden extraerse de las bases de datos de tres formas: desarrollando una aplicación personalizada, utilizando una herramienta de exportación de datos o a través de una interfaz proporcionada por el proveedor, como ODBC. La mayoría de los proveedores de bases de datos incorporan una utilidad de exportación que permite volcar los datos en un archivo plano. Estos datos pueden exportarse en un formato delimitado por comas para garantizar la máxima portabilidad. Los controladores como ODBC y JDBC proporcionan una interfaz de programación de aplicaciones (API) que los desarrolladores y las herramientas de integración de datos pueden utilizar.

Los datos pueden extraerse de las bases de datos para mejorar la agilidad operativa, por ejemplo, manteniendo réplicas que se actualizan de forma asíncrona. De este modo, las oficinas distribuidas a nivel global o los puntos de venta regionales disponen de una copia local que les permite trabajar de manera autónoma. Para la extracción y distribución de estos datos, se emplean sistemas de captura de registros, como los sistemas Change-Data-Capture (CDC), incluyendo soluciones como HVR.

Otra razón importante para extraer datos de una base de datos es la realización de copias de seguridad y recuperación para mantener la continuidad del negocio. En estos casos, los datos pueden extraerse como bloques físicos, evitando la capa SQL para obtener el máximo rendimiento.