Ingestion des données
Qu'est-ce que l'ingestion de données?
Avant de pouvoir être traitées ou analysées, les données doivent être ingérées par un programme d'application, une plateforme d'intégration de données ou un système de gestion de base de données. Toutes les applications fonctionnent en trois phases : ingestion de données, traitement et sortie.
ingestion de données dans l'entreposage de données et la science des données
Les entrepôts de données et l'apprentissage automatique effectuent des analyses de données en utilisant des données qui doivent être extraites d'un ou de plusieurs systèmes sources. L'acheminement des données vers la base de données analytique fait appel à des processus de préparation des données et d'ETL. Les pipelines de préparation des données ingèrent les données avant de les transférer vers les systèmes analytiques cibles. De même, l'ETL, qui signifie Extraction, Transformation et Chargement, comprend l'ingestion de données lors de l'extraction de données à partir de systèmes de données sources et le chargement de données transformées dans une base de données analytique.
Exemples d'ingestion de données
Ingestion de paramètres par les programmes d'application
Les programmes d'application, les fonctions et les microservices reçoivent des données lorsqu'ils sont invoqués ou appelés. La fonction SUM peut recevoir une chaîne de chiffres qu'elle additionne pour obtenir une valeur totale. Les interfaces de programmation d'applications (API) plus modernes utilisées par les applications web peuvent être interrogées pour faciliter l'ingestion de données. JSON et XML permettent de transmettre un nombre variable d'éléments avec une chaîne de délimitation déclarée.
Saisie de données
Les données peuvent être validées lorsque les humains les saisissent dans des formulaires avant qu'un programme d'application ne les accepte. La saisie manuelle des données est couramment utilisée aujourd'hui pour collecter des données d'enquête, pour les carrières afin d'enregistrement données médicales et pour les formulaires en ligne.
Acquisition d'enregistrements de transactions
Les systèmes ERP tels qu'Oracle et SAP créent des enregistrements de journal pour enregistrement transactions. Les systèmes de traitement par lots ingèrent ces données pour résumer les transactions quotidiennes en vue de l'établissement de rapports et de la réconciliation en fin de journée.
Données du journal
Les systèmes informatiques tels que les sites web enregistrement les visites en consignant les URL et les données des cookies. Les systèmes d'automatisation du marketing et des ventes tels que HubSpot ingèrent ces données et les utilisent pour associer ces URL à des entreprises et faire correspondre les données des cookies à des listes de prospects existantes.
ingestion de données basée sur le cloud
Le stockage dans le nuage, tel que les buckets AWS S3, émule les paradigmes d'accès aux fichiers du système d'exploitation sur site et présente des API familières afin que les applications puissent ingérer de manière transparente les données du nuage comme si elles étaient résidentes localement.
Données en temps réel
Les systèmes de jeux et de transactions boursières ont tendance à contourner les API de tige de fichier, préférant ingérer des données directement à partir de files d'attente de messages in-memory
Acquisition d'enregistrements de base de données
Les systèmes de base de données fonctionnent en acceptant et en analysant des requêtes écrites en SQL ou utilisant des valeurs clés et en renvoyant un ensemble d'enregistrements correspondant aux critères de sélection. Les enregistrements sont ensuite traités un par un par l'application appelante.
Chargement des données dans une base de données
La plupart des fournisseurs de bases de données proposent des chargeurs rapides pour charger les données en masse en utilisant plusieurs flux parallèles ou en contournant SQL pour obtenir le meilleur débit.
Streaming ingestion de données
Les sources de données streaming telles que AWS SNS, IBM MQ, Apache Flink et Kafka constituent une alternative populaire aux entrées de données traditionnelles basées sur des fichiers. Lorsque de nouveaux enregistrements sont créés, ils sont immédiatement mis à la disposition des applications qui s'abonnent au flux de données.
Edge ingestion de données
Les appareils IdO génèrent des masses de données qui submergeraient les réseaux d'entreprise et la capacité des serveurs centraux. Les serveurs de passerelle ou de périphérie ingèrent les données des capteurs, par exemple, écartent les données les moins intéressantes et compressent les données intéressantes avant de les transmettre aux serveurs centraux. Il s'agit d'une forme de pré-ingestion visant à optimiser l'utilisation des ressources et à augmenter le débit des données sur des réseaux très sollicités.
Actian et l'ingestion de données
Actian Data Intelligence Platform est conçue pour aider les entreprises à unifier, gérer et comprendre leurs données dans des environnements hybrides. Elle rassemble la gestion des métadonnées , la gouvernance, le lignage, le contrôle de la qualité et l'automatisation en une seule plateforme. Les équipes peuvent ainsi savoir d'où viennent les données, comment elles sont utilisées et si elles répondent aux exigences internes et externes.
Grâce à son interface centralisée, Actian offre une insight en temps réel des structures et des flux de données, ce qui facilite l'application des politiques, la résolution des problèmes et la collaboration entre les services. La plateforme aide également à relier les données au contexte commercial, ce qui permet aux équipes d'utiliser les données de manière plus efficace et plus responsable. La plateforme d'Actian est conçue pour s'adapter à l'évolution des écosystèmes de données, favorisant une utilisation cohérente, intelligente et sécurisée des données dans l'ensemble de l'entreprise. Demandez votre démo personnalisée.
FAQ
L'ingestion de données est le processus de collecte de données à partir de diverses sources et leur transfert dans un système de stockage, une base de données, un lac de données ou une plateforme d'analyse en vue de leur traitement et de leur analyse.
Les deux méthodes principales sont l'ingestion par lotsqui déplace les données à intervalles réguliers, et l'ingestion en continu l'ingestionstreaming qui déplace les données en continu et en temps en temps réel , au fur et à mesure que de nouveaux événements se produisent.
Les sources comprennent les bases de données, les applications SaaS, les API, les dispositifs IoT, les fichiers journaux, les flux d'événements, les systèmes sur site, les plateformes cloud et les sorties de capture des données de changement (CDC).
L'ingestion fiable garantit que les analyses en aval, les tableaux de bord et les modèles d'apprentissage automatique reçoivent des données précises et opportunes. Elle permet d'obtenir informations en temps réel, de réduire la latence et de prendre en charge des architectures d'ingénierie des données évolutif .
Les outils les plus courants sont Apache Kafka, Apache NiFi, Amazon Kinesis, Google Pub/Sub, Fivetran, Airbyte, les systèmes ETL streaming et les frameworks CDC qui capturent les événements de changement de base de données.
Parmi les défis à relever, citons la gestion de gros volumes de données, la dérive des schémas, les problèmes de qualité des données, l'évolutivité en temps réel, le maintien de la cohérence entre les systèmes distribués et la garantie d'un mouvement sécurisé et conforme des données sensibles.