Gestión de datos

Datos estructurados

Diseño digital de un entorno futurista basado en cubos que representan lo que son datos estructurados

Los datos estructurados están pensados para ser consumidos fácilmente por programas de aplicación y personas. Tienen un formato estándar coherente y siguen un modelo de datos. Los datos estructurados suelen encontrarse en una base de datos relacional, por lo que pueden leerse y manipularse mediante un lenguaje de consulta estructurado (SQL).

¿En qué se diferencian los datos estructurados de los no estructurados y los semiestructurados?

Una forma de entenderlo mejor es compararlo con los datos semiestructurados y no estructurados:

Datos estructurados

Tiene registros con campos direccionables. En una base de datos relacional, una tabla estaría formada por filas de registros, más formalmente conocidas como tuplas. Varias tablas están relacionadas entre sí mediante relaciones clave. Los datos estructurados se organizan fácilmente para su análisis. Un esquema de base de datos relacional es la implementación de un modelo de datos que asigna interrelaciones entre entidades representadas por una estructura de tablas.

Semiestructurado

Los datos suelen ser una construcción de longitud de caracteres variable que utiliza una notación como JASON o XML y que contiene elementos con nombre junto con sus valores de datos. Los datos semiestructurados son autodescriptivos, lo que facilita su tratamiento, y pueden almacenarse en un campo de objeto grande (LOB).

Sin estructurar

Registro único que contiene datos codificados, como archivos de vídeo, audio o texto. Este tipo de datos suele almacenarse en un sistema de archivos y no en una base de datos estructurada. Muchos sistemas de bases de datos pueden hacer referencia a datos externos, lo que resulta más eficaz que almacenar dichos objetos internamente como LOB.

Ejemplos de datos estructurados

Una tabla de clientes de una base de datos es un buen ejemplo. La tabla de clientes contiene detalles de múltiples instancias de la entidad cliente representada por filas. Cada fila consta de varias columnas, cada una de las cuales contiene un atributo específico sobre el cliente, como Nombre, Apellidos, Dirección e ID de cliente. El ID de cliente es normalmente el identificador único que relaciona a los clientes con otras entidades del esquema, como los Pedidos.

En un esquema de aplicación de RRHH se pueden encontrar datos sobre Empleados y Departamentos.

Una base de datos de automatización de Salesforce realizaría un seguimiento de los vendedores, los clientes potenciales y los prospectos de ventas abiertos y cerrados.

Tratamiento de datos estructurados

Una de las formas más comunes de datos estructurados es la empleada en las hojas de cálculo. Las utilidades de importación de datos suelen operar con la versión de valores delimitados por comas (CSV) para leer los valores de los datos. Si el archivo contiene etiquetas de encabezado de columna, la utilidad puede utilizarlas como métadonnées para nombrar los valores de los datos. Los productos de integración de datos como Actian DataConnect pueden ingerir, mapear, transformar y cargar los datos en su destino final.

Los lenguajes de programación de aplicaciones (API) pueden leer archivos planos utilizando separadores de campos y caracteres especiales de fin de línea para delimitar campos y registros. Los registros suelen leerse en una matriz de variables con nombre que el programa de aplicación puede procesar.

Los servicios de aplicaciones web pueden utilizar APIs de streaming para recibir flujos de datos. Para proporcionar resiliencia, el flujo de datos de salida fluye hacia un almacén de datos con una memoria caché, donde puede acumularse en caso de fallo de la red. Cuando vuelve la conectividad, la aplicación web receptora lee los datos almacenados de forma asíncrona. Las utilidades de streaming de datos, como Apache Kafka, admiten mecanismos de publicación y suscripción para compartir datos de origen con múltiples aplicaciones suscriptoras. Las API de streaming pueden utilizarse igualmente bien para compartir datos estructurados y semiestructurados.

Creación de datos estructurados

La captura de datos precisos requiere cierta validación si implica la entrada de datos humanos, que puede ser muy propensa a errores. Las aplicaciones utilizan una interfaz gráfica de usuario (GUI) para recoger en un campo con nombre a la vez, validando los formatos y aceptando sólo valores válidos. Los widgets comunes de la interfaz, como botones de radio, casillas de verificación y listas desplegables, mejoran la calidad de los valores de los datos introducidos y mantienen cohérence. Los campos calculados ayudan a eliminar la introducción de datos redundantes. Ejemplos de aplicaciones de entrada de datos humanos son los sistemas de entrada de pedidos, los programas de preparación de impuestos y las encuestas.

En el sector de la logística, el intercambio de datos estructurados entre transportistas y cargadores suele realizarse mediante la tecnología de intercambio electrónico de datos (EDI). La norma EDI ha evolucionado durante décadas hasta imponerse en otros sectores, como la sanidad y las telecomunicaciones.

Estructuración de datos en la periferia

Los sistemas IoT no dependen de la intervención humana, por lo que suelen emplear el procesamiento de máquina a máquina a través de API. El procesamiento de borde se ocupa de filtrar, transformar y estructurar los datos cerca de donde se crean, en el borde de las redes. El procesamiento IoT utiliza dispositivos inteligentes para capturar datos de sensores y preprocesarlos para que los servidores centrales de procesamiento funcionen de forma más eficiente. Actian ZEN Edge gestion des données es una base de datos ligera y compacta adaptada a los casos de uso en los bordes.

Datos de registro

Los sistemas reactivos de seguridad y marketing necesitan procesar los datos casi en tiempo real para capturar eventos críticos como ciberataques o la visita de un posible cliente a una página web. Las empresas de gestion des données como Actian han desarrollado tipos de datos especializados para convertir los formatos de las marcas de tiempo y las direcciones IP en valores de base de datos que permitan un análisis más accesible de los datos de registro.

Aprovechamiento de datos estructurados con Actian Data Platform

Actian Data Platform se ha diseñado para facilitar la importación y el análisis de datos estructurados y semiestructurados. Actian Data Platform está disponible en múltiples plataformas en la nube y on-premise, por lo que el procesamiento analítico se gestiona cerca de donde residen los datos. La tecnología de integración de datos incorporada utiliza plantillas predefinidas para cargar formatos de datos comunes, incluidos CSV, EDI y datos de registro. Las API de streaming son compatibles con un estudio visual de datos para facilitar la captura de datos.