7 Lügen über Datenkataloge #4: Keine Lösung für Anfrage

Datenkatalog Daten-Lake

Datenkatalog Daten-Lake

Der Datenkatalog Markt hat sich rasant entwickelt und gilt heute als unverzichtbar für die Umsetzung einer data-driven Strategie. Dieser Markt ist Opfer seines eigenen Erfolgs geworden und hat eine Reihe von Akteuren aus angrenzenden Märkten angezogen.

Diese Akteure haben ihre Marketingpositionierung überarbeitet und präsentieren sich nun als Datenkatalog .

Die Realität sieht so aus, dass diese Unternehmen zwar relativ wenig über die eigentlichen Datenkatalog wissen, aber mit einem ihrem Marketingbudget entsprechenden Erfolg versuchen, die Kunden davon zu überzeugen, dass es sich bei einem Datenkatalog nicht nur um ein High-Performance für Datenteams handelt, sondern um eine integrierte Lösung, die eine ganze Reihe anderer Themen abdeckt.

Das Ziel dieser Blogserie ist es, das Angebot dieser Anbieter von Datenkatalog in letzter Minute zu dekonstruieren.

Hier sind, unserer Meinung nach, die 7 Lügen der Datenkatalog :

Ein Datenkatalog ist keine Anfrage

Hier zeigt sich eine weitere Merkwürdigkeit des Datenkatalog . Mehrere Anbieter, deren ursprüngliches Ziel es war, den Nutzern die Möglichkeit zu geben, mehrere Datenquellen gleichzeitig abfragen , haben sich in Richtung einer Datenkatalog am Markt "gedreht".

Es gibt einen Grund, warum sie sich umorientieren sollten.

Das Aufkommen von Data Lakes und Big Data hat sie in eine technologische Sackgasse geführt, die das Marktsegment, in dem sie ursprünglich tätig waren, geschwächt hat.

Ein Daten-Lake ist in der Regel in mehrere Schichten unterteilt. Die "rohe" Schicht enthält Daten ohne Transformation, in mehr oder weniger strukturierten Formaten und in großen Mengen; eine zweite Schicht, die wir "sauber" nennen, enthält ungefähr die gleichen Daten, aber in normalisierten Formaten, nach einer Entstaubung. Danach kann es eine oder mehrere "geschäftliche" Schichten geben, die zur Verwendung bereit sind: Ein Data Warehouse und ein Visualisierungstool für Analysen, ein Cluster für data science, ein Speichersystem für den kommerziellen Vertrieb usw. Innerhalb dieser Schichten werden die Daten transformiert, aggregiert und für die Nutzung optimiert, zusammen mit den Tools, die diese Nutzung unterstützen (Datenvisualisierungstools, Notebooks, massive Verarbeitung usw.).

In dieser Landschaft ist ein universellesAnfrage nicht geeignet.

Es ist natürlich möglich, eine SQL-Interpretationsschicht über der "sauberen" Schicht (wie Hive) einzurichten, aber die Ausführung von abfragen bleibt eine Domäne für Spezialisten. Die Datenmengen sind riesig und selten indexiert.

Benutzern die Möglichkeit zu geben, ihre eigenen Abfragen zu definieren, ist sehr riskant: Bei On-Prem-Systemen besteht die Gefahr, dass der Cluster durch eine sehr teure abfragen zusammenbricht. Und in der Cloud kann die Rechnung sehr hoch ausfallen. Ganz zu schweigen von Fragen der Sicherheit und Datensensibilität.

Was die "geschäftlichen" Schichten betrifft, so sind sie in der Regel mit spezialisierteren Lösungen gekoppelt (z. B. einer Kombination aus Snowflake und Tableau für Analysen), die ein sehr vollständiges und sicheres Tooling bieten und eine hohe Leistung für Self-Service ermöglichen. Da ihr Markt immer kleiner wird, haben sich einige Anbieter von abfragen auf Datenkataloge verlegt.

Ihr Ziel ist es nun, die Kunden davon zu überzeugen, dass die Fähigkeit, Abfragen auszuführen, ihre Lösung zum Rolls-Royce der Datenkataloge macht (um ihre sechsstelligen Preise zu rechtfertigen). Wir möchten Sie bitten, sich das zweimal zu überlegen.

Mitnehmen

In einer modernen Datenarchitektur ist die Fähigkeit, Abfragen aus einem Datenkatalog auszuführen, nicht nur unnötig, sondern auch sehr riskant (Leistung, Kosten, Sicherheit usw.).

Datenteams verfügen bereits über eigene Tools zur Ausführung von Datenabfragen, und falls nicht, wäre es eine gute Idee, sie damit auszustatten. Die Integration von Datenzugriffsproblemen in die Deployment eines Katalogs ist der sicherste Weg zu einem langen, kostspieligen und enttäuschenden Projekt.

Über den Autor

Über Actian Germany GmbH

Actian ermöglicht es Unternehmen, Daten in großem Umfang sicher zu verwalten und zu steuern. Unternehmen vertrauen auf die Datenmanagement- und Datenintelligenz-Lösungen von Actian, um komplexe Datenumgebungen zu optimieren und die Bereitstellung von KI-fähigen Daten zu beschleunigen. Die auf Flexibilität ausgelegten Lösungen von Actian lassen sich nahtlos integrieren und arbeiten zuverlässig in lokalen, Cloud- und Hybridumgebungen. Erfahren Sie mehr über Actian, den Daten- und KI-Geschäftsbereich von HCL Software, unter actian.com.

Actian Data Intelligence Platform Neu

Zentrale Funktionen

Zentrale Funktionen

Actian Data Observability Neu

Zentrale Funktionen

Datenbanken

Produkte

Actian Data Platform

Zentrale Funktionen

Integration von Daten

Produkte

Produktübersicht

Alle Produkte

7 Lügen über Datenkataloge #4: Keine Lösung für Anfrage

Ein Datenkatalog ist keine Anfrage

In dieser Landschaft ist ein universellesAnfrage nicht geeignet.

Mitnehmen

7 Lügen über Datenkataloge #4: Keine Lösung für Anfrage

Ein Datenkatalog ist keine Anfrage

In dieser Landschaft ist ein universellesAnfrage nicht geeignet.

Mitnehmen

Bleiben Sie in Verbindung

Datenanalysen, die Ihnen geliefert werden.