Les 5 principaux pièges des entrepôts de données traditionnels

#Hadoop

concept de technologie cloud hybride avec entrepôts de données

#Hadoop

Au cours des deux dernières décennies, les solutions d'entrepôt de données ont évolué et se sont diversifiées pour répondre à une multitude de cas d'utilisation. Parallèlement, le rythme des activités commerciales ne cesse de s'accélérer, ce qui rend plus difficile le maintien de la compétitivité. Ces nouvelles exigences peuvent mettre à rude épreuve les capacités des entrepôts de données traditionnels.

Below are 5 of the common pitfalls that can trip up traditional data warehouses:

Devise

Alors que les entreprises sont de plus en plus tenues d'opérer en temps réel ou dans l'instant, les entrepôts de données doivent fournir des données toujours plus récentes. Les bases de données SQL Hadoop ne parviennent généralement pas à gérer les flux continus de mises à jour, car leur système de fichiers est optimisé pour des mises à jour par lots peu fréquentes, avec une fenêtre glissante de données historiques. L'absence de données récentes peut empêcher les entreprises de réagir suffisamment rapidement aux menaces et aux opportunités pour rester compétitives.

Sécurité

Le durcissement constant des réglementations en matière de protection de la vie privée, telles que le RGPD, ainsi que la fréquence croissante des violations de données ont fait de la sécurité un enjeu crucial pour la réputation des entreprises. Les bases de données d'entrée de gamme peuvent ne pas disposer de fonctionnalités avancées de chiffrement pour les données en transit et au repos. Le masquage des données au niveau des colonnes est une fonctionnalité avancée dont de nombreuses bases de données sont dépourvues, ce qui constitue un risque majeur.

Vitesse

Il existe de nombreuses raisons pour lesquelles une requête analytique requête être lente. Il se peut que l'administrateur de base de données ne l'ait pas anticipée et n'ait pas défini d'index spécifique, rendant ainsi la base de données inadaptée aux requêtes ad hoc. Ce problème est aggravé par la tendance actuelle à la démocratisation data analysts, où des utilisateurs ayant une compréhension limitée des structures de données sous-jacentes peuvent mettre une base de données à genoux.

Prix

À mesure que les volumes et les types de données augmentent, l'extension de la capacité peut s'avérer coûteuse. C'est particulièrement vrai pour les solutions basées sur des appliances, telles qu'IBM Netezza, où l'extension de la capacité peut impliquer l'achat d'une appliance plus puissante. Les solutions plus ouvertes, basées sur Hadoop et le cloud, qui utilisent des serveurs et des systèmes d'exploitation standard, ont gagné en popularité pour réduire le coût de l'infrastructure, mais elles présentent d'autres problèmes de coûts cachés, tels que la nécessité de compétences coûteuses et le risque de dépendance vis-à-vis d'un fournisseur.

déploiement

Certaines bases de données exigent tout simplement des compétences approfondies en matière de développement et d'administration. Oracle et Teradata font partie de cette catégorie. Les services de bases de données dans le cloud permettent de pallier cette complexité dans une certaine mesure, ce qui laisse entrevoir une lueur d'espoir.

Chaque organisation a ses propres priorités ; c'est pourquoi le classement de ces cinq écueils peut varier d'une entreprise à l'autre. Ne manquez pas mon prochain article de cette série, intitulé « Qu'est-ce qu'un entrepôt de données opérationnel et pourquoi est-ce la prochaine grande tendance ? », dans lequel je présenterai la prochaine grande tendance en matière d'analyse de données, ses avantages et bien plus encore.

À propos de l'auteur