7 Lügen über Datenkataloge #4: Keine Lösung für Anfrage
Actian Germany GmbH
2. Juli 2021

Der Markt für Datenkatalog hat sich rasch entwickelt und gilt heute als unverzichtbar für die Umsetzung einer data driven Strategie. Dieser Markt ist Opfer seines eigenen Erfolgs geworden und hat eine Reihe von Akteuren aus angrenzenden Märkten angezogen.
Diese Akteure haben ihre Marketingpositionierung überarbeitet und präsentieren sich nun als Datenkatalog .
Die Realität sieht so aus, dass diese Unternehmen zwar relativ wenig über die eigentlichen Datenkatalog wissen, aber mit einem ihrem Marketingbudget entsprechenden Erfolg versuchen, die Kunden davon zu überzeugen, dass es sich bei einem Datenkatalog nicht nur um ein High-Performance für Datenteams handelt, sondern um eine integrierte Lösung, die eine ganze Reihe anderer Themen abdeckt.
Das Ziel dieser Blogserie ist es, das Angebot dieser Anbieter von Datenkatalog in letzter Minute zu dekonstruieren.
Hier sind, unserer Meinung nach, die 7 Lügen der Datenkatalog :
- Ein Datenkatalog ist eine Data Governance Plattform.
- Ein Datenkatalog kann Datenqualität messen und verwalten .
- Ein Datenkatalog kann die Einhaltung von Vorschriften verwalten .
- Ein Datenkatalog kann Daten direkt Anfrage .
- Ein Datenkatalog kann logische Architekturen und Geschäftsprozesse rund um Daten modellieren.
- Ein Datenkatalog ist ein kollaboratives Kartographie- und Metadaten , das nicht automatisiert werden kann.
- Ein Datenkatalog ist ein langes, komplexes und teures Projekt.
Ein Datenkatalog ist keine Anfrage
Hier ist eine weitere Kuriosität des Datenkatalog . Mehrere Anbieter, deren ursprüngliches Ziel es war, den Nutzern die gleichzeitige Anfrage mehrerer Datenquellen zu ermöglichen, haben sich in Richtung einer Datenkatalog am Markt "gedreht".
Es gibt einen Grund, warum sie sich umorientieren sollten.
Das Aufkommen von Data Lakes und Big Data hat sie in eine technologische Sackgasse geführt, die das Marktsegment, in dem sie ursprünglich tätig waren, geschwächt hat.
Ein Daten-Lake ist in der Regel in mehrere Schichten unterteilt. Die "rohe" Schicht enthält Daten ohne Transformation, in mehr oder weniger strukturierten Formaten und in großen Mengen; eine zweite Schicht, die wir "sauber" nennen, enthält ungefähr die gleichen Daten, aber in normalisierten Formaten, nach einer Entstaubung. Danach kann es eine oder mehrere "geschäftliche" Schichten geben, die zur Verwendung bereit sind: Ein Data Warehouse und ein Visualisierungstool für Analysen, ein Cluster für data science, ein Speichersystem für den kommerziellen Vertrieb usw. Innerhalb dieser Schichten werden die Daten transformiert, aggregiert und für die Nutzung optimiert, zusammen mit den Tools, die diese Nutzung unterstützen (Datenvisualisierungstools, Notebooks, massive Verarbeitung usw.).
In dieser Landschaft ist ein universellesAnfrage nicht geeignet.
Es ist natürlich möglich, eine SQL-Interpretationsschicht über der "sauberen" Schicht (wie Hive) einzurichten, aber die Ausführung von Anfrage bleibt eine Domäne für Spezialisten. Die Datenmengen sind riesig und werden selten indiziert.
Es ist sehr riskant, den Nutzern zu erlauben, ihre eigenen Abfragen zu definieren: Bei On-Prem-Systemen besteht die Gefahr, dass der Cluster durch eine sehr teure Anfrage kollabiert. Und in der Cloud könnte die Rechnung sehr hoch ausfallen. Ganz zu schweigen von Fragen der Sicherheit und der Datensensibilität.
Was die "geschäftlichen" Schichten betrifft, so sind sie in der Regel mit spezialisierteren Lösungen gekoppelt (z. B. einer Kombination aus Snowflake und Tableau für Analysen), die ein sehr vollständiges und sicheres Tooling bieten und eine hohe Leistung für Self-Service ermöglichen. Da der Markt immer kleiner wird, haben sich einige Anbieter von Anfrage auf Datenkataloge verlegt.
Ihr Ziel ist es nun, die Kunden davon zu überzeugen, dass die Fähigkeit, Abfragen auszuführen, ihre Lösung zum Rolls-Royce der Datenkataloge macht (um ihre sechsstelligen Preise zu rechtfertigen). Wir möchten Sie bitten, sich das zweimal zu überlegen.
Mitnehmen
In einer modernen Datenarchitektur ist die Fähigkeit, Abfragen aus einem Datenkatalog auszuführen, nicht nur unnötig, sondern auch sehr riskant (Leistung, Kosten, Sicherheit usw.).
Datenteams verfügen bereits über eigene Tools zur Ausführung von Datenabfragen, und falls nicht, wäre es eine gute Idee, sie damit auszustatten. Die Integration von Datenzugriffsproblemen in die Deployment eines Katalogs ist der sicherste Weg zu einem langen, kostspieligen und enttäuschenden Projekt.
Abonnieren Sie den Actian Blog
Abonnieren Sie den Blog von Actian, um direkt Dateneinblicke zu erhalten.
- Bleiben Sie auf dem Laufenden - Holen Sie sich die neuesten Informationen zu Data Analytics direkt in Ihren Posteingang.
- Verpassen Sie keinen Beitrag: Sie erhalten automatische E-Mail-Updates, die Sie informieren, wenn neue Beiträge veröffentlicht werden.
- Ganz wie sie wollen: Ändern Sie Ihre Lieferpräferenzen nach Ihren Bedürfnissen.