Daten-Intelligenz

7 Lügen über Datenkataloge #4: Keine Lösung für Anfrage

Actian Germany GmbH

2. Juli 2021

ein Datenkatalog ist keine Anfrage

Der Markt für Datenkatalog hat sich rasch entwickelt und gilt heute als unverzichtbar für die Umsetzung einer data driven Strategie. Dieser Markt ist Opfer seines eigenen Erfolgs geworden und hat eine Reihe von Akteuren aus angrenzenden Märkten angezogen.

 Diese Akteure haben ihre Marketingpositionierung überarbeitet und präsentieren sich nun als Datenkatalog .

Die Realität sieht so aus, dass diese Unternehmen zwar relativ wenig über die eigentlichen Datenkatalog wissen, aber mit einem ihrem Marketingbudget entsprechenden Erfolg versuchen, die Kunden davon zu überzeugen, dass es sich bei einem Datenkatalog nicht nur um ein High-Performance für Datenteams handelt, sondern um eine integrierte Lösung, die eine ganze Reihe anderer Themen abdeckt.

Das Ziel dieser Blogserie ist es, das Angebot dieser Anbieter von Datenkatalog in letzter Minute zu dekonstruieren.

Ein Datenkatalog ist keine Anfrage

Hier ist eine weitere Kuriosität des Datenkatalog . Mehrere Anbieter, deren ursprüngliches Ziel es war, den Nutzern die gleichzeitige Anfrage mehrerer Datenquellen zu ermöglichen, haben sich in Richtung einer Datenkatalog am Markt "gedreht".

Es gibt einen Grund, warum sie sich umorientieren sollten.

Das Aufkommen von Data Lakes und Big Data hat sie in eine technologische Sackgasse geführt, die das Marktsegment, in dem sie ursprünglich tätig waren, geschwächt hat.

Ein Daten-Lake ist in der Regel in mehrere Schichten unterteilt. Die "rohe" Schicht enthält Daten ohne Transformation, in mehr oder weniger strukturierten Formaten und in großen Mengen; eine zweite Schicht, die wir "sauber" nennen, enthält ungefähr die gleichen Daten, aber in normalisierten Formaten, nach einer Entstaubung. Danach kann es eine oder mehrere "geschäftliche" Schichten geben, die zur Verwendung bereit sind: Ein Data Warehouse und ein Visualisierungstool für Analysen, ein Cluster für data science, ein Speichersystem für den kommerziellen Vertrieb usw. Innerhalb dieser Schichten werden die Daten transformiert, aggregiert und für die Nutzung optimiert, zusammen mit den Tools, die diese Nutzung unterstützen (Datenvisualisierungstools, Notebooks, massive Verarbeitung usw.).

In dieser Landschaft ist ein universellesAnfrage nicht geeignet.

Es ist natürlich möglich, eine SQL-Interpretationsschicht über der "sauberen" Schicht (wie Hive) einzurichten, aber die Ausführung von Anfrage bleibt eine Domäne für Spezialisten. Die Datenmengen sind riesig und werden selten indiziert.

Es ist sehr riskant, den Nutzern zu erlauben, ihre eigenen Abfragen zu definieren: Bei On-Prem-Systemen besteht die Gefahr, dass der Cluster durch eine sehr teure Anfrage kollabiert. Und in der Cloud könnte die Rechnung sehr hoch ausfallen. Ganz zu schweigen von Fragen der Sicherheit und der Datensensibilität.

Was die "geschäftlichen" Schichten betrifft, so sind sie in der Regel mit spezialisierteren Lösungen gekoppelt (z. B. einer Kombination aus Snowflake und Tableau für Analysen), die ein sehr vollständiges und sicheres Tooling bieten und eine hohe Leistung für Self-Service ermöglichen. Da der Markt immer kleiner wird, haben sich einige Anbieter von Anfrage auf Datenkataloge verlegt.

Ihr Ziel ist es nun, die Kunden davon zu überzeugen, dass die Fähigkeit, Abfragen auszuführen, ihre Lösung zum Rolls-Royce der Datenkataloge macht (um ihre sechsstelligen Preise zu rechtfertigen). Wir möchten Sie bitten, sich das zweimal zu überlegen.

Mitnehmen

In einer modernen Datenarchitektur ist die Fähigkeit, Abfragen aus einem Datenkatalog auszuführen, nicht nur unnötig, sondern auch sehr riskant (Leistung, Kosten, Sicherheit usw.).

Datenteams verfügen bereits über eigene Tools zur Ausführung von Datenabfragen, und falls nicht, wäre es eine gute Idee, sie damit auszustatten. Die Integration von Datenzugriffsproblemen in die Deployment eines Katalogs ist der sicherste Weg zu einem langen, kostspieligen und enttäuschenden Projekt.

actian avatar logo

Über Actian Corporation

Actian macht Daten einfach. Unsere Datenplattform vereinfacht die Verbindung, Verwaltung und Analyse von Daten in Cloud-, Hybrid- und lokalen Umgebungen. Mit jahrzehntelanger Erfahrung in den Bereichen Datenmanagement und -analyse liefert Actian leistungsstarke Lösungen, die es Unternehmen ermöglichen, datengesteuerte Entscheidungen zu treffen. Actian wird von führenden Analysten anerkannt und wurde für seine Leistung und Innovation mit Branchenpreisen ausgezeichnet. Unsere Teams präsentieren bewährte Anwendungsfälle auf Konferenzen (z. B. Strata Data) und tragen zu Open-Source-Projekten bei. Im ActianBlog behandeln wir Themen wie Echtzeit-Dateneingabe, Datenanalyse, Data Governance, Datenmanagement, Datenqualität, Datenintelligenz und KI-gesteuerte Analysen.