Gestion des données

Données structurées

Conception numérique d'un environnement futuriste basé sur des cubes représentant des données structurées

Les données structurées sont destinées à être facilement consommées par les programmes d'application et les humains. Elles se présentent sous un format cohérent et standard et suivent un modèle de données. Les données structurées se trouvent généralement dans une base de données relationnelle, de sorte qu'elles peuvent être lues et manipulées à l'aide du langage de requête structuré (SQL).

En quoi les données structurées diffèrent-elles des données non structurées et semi-structurées ?

Une façon de mieux la comprendre est de la comparer aux données semi-structurées et non structurées :

Données structurées

Elle contient des enregistrements dont les champs sont adressables. Dans une base de données relationnelle, une table est constituée de lignes d'enregistrements, plus précisément de tuples. Plusieurs tables sont reliées entre elles par des relations clés. Les données structurées sont facilement organisées pour l'analyse. Un schéma de base de données relationnelle est la mise en œuvre d'un modèle de données qui établit des relations entre les entités représentées par une structure de table.

Semi-structuré

Les données sont généralement une construction de longueur variable utilisant une notation telle que JASON ou XML, qui contient des éléments nommés ainsi que leurs valeurs de données. Les données semi-structurées sont auto-descriptives, ce qui facilite leur traitement, et peuvent être stockées dans un champ LOB (Large Object).

Non structuré

Un enregistrement unique contenant des données codées telles que des fichiers vidéo, audio ou texte. Ce type de données est généralement stocké dans un système de fichiers plutôt que dans une base de données structurée. De nombreux systèmes de base de données peuvent référencer des données externes, ce qui est plus efficace que de stocker ces objets en interne sous forme de LOB.

Exemples de données structurées

Une table de clients dans une base de données est un bon exemple. La table client contient les détails de plusieurs instances de l'entité client représentée par des lignes. Chaque ligne se compose de plusieurs colonnes, chacune contenant un attribut spécifique du client, tel que le prénom, le nom, l'adresse et l'identifiant du client. L'identifiant du client est généralement l'identifiant unique qui relie les clients à d'autres entités du schéma, telles que les commandes.

Vous pouvez vous attendre à trouver des données sur les employés et les départements dans un schéma d'application RH.

Une base de données d'automatisation de Salesforce permet de suivre les vendeurs, les prospects et les pistes de vente ouvertes et fermées.

Traitement des données structurées

Les feuilles de calcul constituent l'une des formes les plus courantes de données structurées. Les utilitaires d'importation de données utilisent généralement la version CSV (comma-delimited values) pour lire les valeurs des données. Si le fichier contient des étiquettes d'en-tête de colonne, l'utilitaire peut les utiliser comme métadonnées pour nommer les valeurs de données. Les produits d'intégration de données tels qu'Actian DataConnect peuvent ingérer, mapper, transformer et charger les données vers leur destination finale.

Les langages de programmation d'applications (API) peuvent lire des fichiers plats en utilisant des séparateurs de champs et des caractères spéciaux de fin de ligne pour délimiter les champs et les enregistrements. Les enregistrements sont généralement lus dans un tableau de variables nommées que le programme d'application peut traiter.

Les services d'application web peuvent utiliser des API de streaming pour recevoir des flux de données. Pour assurer la résilience, le flux de données de sortie s'écoule dans un magasin de données doté d'une mémoire cache, où il peut s'accumuler en cas de défaillance du réseau. Lorsque la connectivité est rétablie, les données mises en mémoire tampon sont lues par l'application web réceptrice de manière asynchrone. Les utilitaires de données Streaming tels qu'Apache Kafka support mécanismes de publication et d'abonnement pour partager les données sources avec plusieurs applications abonnées. Les API de Streaming peuvent être utilisées aussi bien pour le partage de données structurées que semi-structurées.

Création de données structurées

Une saisie précise des données nécessite une certaine validation si elle implique une saisie humaine, qui peut être sujette à de nombreuses erreurs. Les applications utilisent une interface utilisateur graphique (GUI) pour collecter des données dans un champ nommé à la fois, en validant les formats et en n'acceptant que les valeurs valides. Les widgets d'interface courants, tels que les boutons radio, les cases à cocher et les listes déroulantes, améliorent la qualité des données saisies et maintiennent la cohérence. Les champs calculés permettent d'éliminer la saisie de données redondantes. Les systèmes de saisie des commandes, les logiciels de préparation des déclarations de revenus et les enquêtes sont des exemples d'applications de saisie de données humaines.

Dans le secteur de la logistique, les données structurées sont généralement échangées entre les expéditeurs et les transporteurs à l'aide de la technologie de l'échange de données informatisé (EDI). La norme EDI a évolué au fil des décennies pour s'imposer dans d'autres secteurs, notamment les soins de santé et les télécommunications.

Structurer les données à la périphérie

Les systèmes IoT ne reposent pas sur des données humaines et utilisent donc généralement un traitement de machine à machine par le biais d'API. Le traitement en périphérie concerne le filtrage, la transformation et la structuration des données à proximité de l'endroit où elles sont créées, à la périphérie des réseaux. Le traitement IoT utilise des appareils intelligents pour capturer les données des capteurs et les prétraiter afin que les serveurs de traitement central fonctionnent plus efficacement. Actian ZEN Edge gestion des données est une base de données légère et compacte adaptée aux cas d'utilisation en périphérie.

Données du journal

Les systèmes de sécurité et de marketing réactifs doivent traiter les données en temps quasi réel pour capturer les événements critiques tels que les cyber-attaques ou la visite d'un site web par un prospect. Ces activités sont capturées sous forme d'enregistrements, y compris les horodatages, les adresses IP et les URL des pages visitées. Des sociétés de gestion des données telles qu'Actian ont développé des types de données spécialisés pour mapper les horodatages et les formats d'adresse IP en valeurs de base de données pour une analyse plus accessible des données de journal.

Exploiter les données structurées avec la plateforme de données Actian

La plateforme de données Actian a été conçue pour faciliter l'importation et l'analyse de données structurées et semi-structurées. La plateforme de données Actian est disponible sur plusieurs plateformes en nuage et sur site, de sorte que le traitement analytique est effectué à proximité de l'endroit où résident les données. La technologie d'intégration de données intégrée utilise des modèles prédéfinis pour charger des formats de données courants, notamment CSV, EDI et les données de journal. Les API de Streaming sont prises en charge, de même qu'un studio de données visuelles pour faciliter la capture des données.