Big Data

Le terme Big Data décrit des ensembles de données qui sont trop volumineux ou trop complexes pour être traités par les méthodes traditionnelles de traitement des données. Il est également utilisé pour décrire les ensembles de données qui doivent être traités dans leur intégralité pour obtenir des informations commerciales sur les informations contenues dans les données, car le traitement de sous-ensembles de données pourrait conduire à des conclusions erronées.
Trois attributs clés peuvent la caractériser : le volume, la vitesse et la variété, expliqués ci-dessous :
- Le volume peut varier en fonction de l'application et de l'entreprise. De nombreuses entreprises considèrent tout jeu de données données supérieur à dix téraoctets comme du Big Data, tandis que d'autres peuvent utiliser ce terme pour décrire des jeux de données à l'échelle du pétaoctet. Les journaux Web, les systèmes financiers, les flux des réseaux sociaux et les capteurs IoT peuvent générer d'énormes volumes de données, ce qui les rend de plus en plus courants.
- La vitesse de création des données peut exiger un traitement in-memory temps réel dans des cas d'utilisation tels que la détection des fraudes ou le traitement des capteurs IoT dans l'industrie manufacturière. Le traitement en périphérie et les appareils intelligents peuvent contribuer à réduire la vitesse des données en prétraitant un volume important de données avant qu'elles ne dépassent les ressources du serveur central.
- La variété fait référence aux types de données. Elle ne se limite pas aux seules données structurées. Ses ensembles de données englobent également des types de données non structurées et semi-structurées, telles que JSON, audio, texte et vidéo.
Stockage de données volumineuses (Big Data)
Les premiers systèmes de stockage de données utilisés pour l'support décision reposaient sur la technologie de l'entrepôt de données pour le stockage et l'extraction de données structurées. Cela est devenu un facteur limitant lorsque les entreprises ont commencé à voir la valeur des données semi-structurées et non structurées. Open source et évolutif, les systèmes de fichiers structurés ont évolué pour stocker économiquement des milliers de fichiers auxquels on pouvait accéder à l'aide de serveurs en grappe. Au début, les piles logicielles Apache Hadoop fonctionnant sur des grappes de serveurs géraient les fichiers Big Data.
Accès SQL aux données volumineuses
Apache Hive fournissait une API SQL qui mettait à la disposition des applications des données basées sur des fichiers. Spark SQL fournit une couche API qui prend en charge plus de 50 formats de fichiers, ORC et Parquet. Les logiciels modernes basés sur le cloud et le cloud hybride, tels que la plateforme de données Actian, fournissent un entrepôt de données d'analyse de de haute performance avec la possibilité d'accéder aux formats de fichiers Hadoop en tant que tables externes à l'aide d'un connecteur Spark SQL intégré. En prenant en charge les formats de données semi-structurées les plus courants, notamment JSON et les journaux de sites web, en plus de Spark SQL et de SQL standard, les concepteurs d'applications et les analystes de données peuvent accéder facilement aux entrepôts de Big Data dans le cloud et sur site.
Traitement
Les systèmes de traitement employant des capacités de traitement massivement parallèle (MPP) utilisant des centaines de nœuds de calcul permettent d'analyser des ensembles de données vastes et complexes. Les faibles coûts de stockage et la disponibilité immédiate de ressources de calcul massives en fonction des besoins font des services d'informatique dans le cloud un bon choix pour le traitement de grandes quantités de données. La tarification par abonnement et le provisionnement élastique font de l'informatique dans le cloud un choix économique, car vous ne payez que pour les ressources que vous utilisez. Les solutions sur site utilisent souvent des systèmes en grappe ou basés sur le GPU, qui peuvent être exploités pour un traitement des requête hautement parallélisé.
Pourquoi est-il utilisé ?
Cette approche est devenue populaire parce qu'elle offrait une nouvelle source de données empiriques pour support prise de décision des entreprises. Les organisations génèrent et collectent de grandes quantités de données qui contiennent des informations précieuses qui ne deviennent évidentes que lorsque les données sont traitées et analysées. La technologie a permis aux entreprises d'exploiter efficacement de vastes ensembles de données pour en tirer de nouvelles informations qui leur permettent d'être compétitives et de multiplier les interactions fructueuses avec leurs clients. Prendre des décisions basées sur les données réelles des consommateurs réduit les risques et les coûts associés à une prise de décision non informée, ce qui, en fin de compte, rend l'entreprise plus efficace.
Cas d'utilisation des Big Data
Vous trouverez ci-dessous quelques exemples de cas d'utilisation réels :
- Le secteur des soins de santé l'utilise pour améliorer les soins aux patients en utilisant la télémétrie des dispositifs portables intelligents pour surveiller la santé des patients, la pression artérielle, les niveaux de glucose et les fréquences cardiaques, par exemple. Les essais cliniques recueillent d'énormes quantités de données qui doivent être analysées pour gérer et prévenir les maladies.
- Le secteur des télécommunications utilise les données collectées auprès des abonnés aux services mobiles pour améliorer la fiabilité du réseau et l'expérience client.
- Le secteur des médias exploite les données des utilisateur pour personnaliser le contenu en fonction des centres d'intérêt des téléspectateurs. Cela permet d'accroître la satisfaction à l'égard du service et de fidéliser la clientèle.
- Le secteur du commerce de détail a besoin de ses analyses pour vendre les produits les plus pertinents pour l'acheteur. En suivant les clients du commerce électronique et en faisant des recommandations appropriées, les détaillants peuvent augmenter la fréquentation de leurs magasins physiques.
- Les banques et les compagnies d'assurance l'utilisent pour détecter les transactions potentiellement frauduleuses et prévenir le blanchiment d'argent.
- Les organisations gouvernementales l'utilisent pour améliorer les services de police et lutter contre la cybercriminalité. Les villes utilisent les caméras de circulation pour gérer les accidents et améliorer la circulation sur les routes.
- Les services de marketing l'utilisent pour informer les réseaux sociaux ciblés et les campagnes de publicité numérique afin de fournir à leurs équipes de vente des contacts susceptibles d'être intéressés par le produit ou le service fourni par l'entreprise.
Big Data et Actian
Voici quelques-uns des avantages de la plateforme de données Actian :
- Des performances exceptionnelles pour vos charges de travail les plus complexes.
- Intégration de données intégrée pour un chargement et un accès rapides aux données, ainsi que pour la transformation et la qualité des données.
- Faites évoluer votre entrepôt de données en temps réel en fonction de vos besoins en matière de calcul et de stockage.
- Conformité SOC 2 Type 2 pour vos déploiements de données les plus sensibles.
Pour en savoir plus sur la plateforme de données Actian : https://www.actian.com/data-platform