Datenarchitektur

Verwaltung von Daten über verteilte Data Warehouses hinweg

Actian Germany GmbH

17. Juli 2019

verteiltes Data Warehouse

Datenintegration ist, wie die Initiativen zur digitalen Transformation, die sie unterstützt, eine Migration und kein Ziel. Jedes Unternehmen befindet sich irgendwo auf einem Weg von der Vergangenheit zu einem gewünschten Zustand der zukünftigen Integration, den es erreichen möchte. Wenn Ihr Unternehmen bereits seit einigen Jahren besteht, dann haben Sie wahrscheinlich mehrere Datenbanken, Data Marts und Data Warehouses, die für unabhängige Geschäftsfunktionen entwickelt wurden und nun integriert werden müssen, um die ganzheitliche Perspektive zu bieten, die digital transformierte Geschäftsprozesse erfordern.

Vielleicht haben Sie den Ehrgeiz, alle Ihre Daten in einem einzigen Data Warehouse zusammenzuführen (ein potenziell mehrjähriger Aufwand); Sie könnten auch beschließen, Ihre Altsysteme beizubehalten; oder Sie könnten sich dafür entscheiden, Ihre Daten neu zu strukturieren und sie auf regionale Data Warehouses zu verteilen. Alle diese Szenarien haben eines gemeinsam: Sie werden noch eine ganze Weile (wenn nicht sogar auf unbestimmte Zeit) mit verteilten Abfragen zu tun haben.

IT-Führungskräfte akzeptieren zunehmend die Notwendigkeit verteilter Abfragen, machen sich aber gleichzeitig mehr Sorgen über die Auswirkungen auf die Leistung sowohl von operativen Systemen als auch von Analysesystemen, die Daten aus verteilten Lagern nutzen müssen. Cloud Integrationsplattformen und hybride Data Warehouses bieten eine Antwort auf einige dieser Herausforderungen.

Warum sind verteilte Abfragen problematisch?

Verteilte Abfragen, die sich über multiple data Warehouses erstrecken, stellen eine Leistungsherausforderung dar, da die Latenzzeit durch Remote-Joins, iterative Operationen und große Datensätze verursacht wird, die (zusätzlich zur Verarbeitung innerhalb einer Datenbank) auch die Netzwerkinfrastruktur durchlaufen müssen. Je komplexer die Analysen werden und je größer die zugrunde liegenden Datensätze sind (beides häufige Situationen), desto mehr Zeit benötigt die Anfrage für die Verarbeitung.

Bei der Batch-Verarbeitung ist dies keine große Sache, aber die Anwendungsfälle für integrierte Daten konzentrieren sich zunehmend auf die Bereitstellung von Real-Time-Insights. Dies kann Teil eines Transaktionsprozesses sein, den ein Mitarbeiter durchführt (z. B. Überprüfung der Auftragshistorie, Lagerhaltung oder Zusammenstellung einer 360-Grad-Ansicht des Kunden usw.), oder es kann sich um Echtzeit-Überwachung und -Analyse handeln, um die operative Entscheidungsfindung voranzutreiben. In jedem Fall haben die Endnutzer eine geringe Toleranz für Verzögerungen bei der Datenverarbeitung und erwarten, dass die Daten korrekt, robust und aktuell (in Echtzeit) sind.

Wie kann man die Herausforderung der verteilten Abfragen angehen?

IT-Teams haben einige Möglichkeiten, um die Leistungsprobleme bei verteilten Abfragen zu lösen.

  1. Zusammenführung verteilter Data Warehouses in einer einzigen Instanz - Dies scheint zwar die effizienteste Lösung zu sein, ist aber aufgrund der Investitionen in die alte Infrastruktur, der Migrationskosten und der Unterbrechung des Geschäftsbetriebs oft keine kosteneffiziente Alternative.
  2. Trennen Sie die Abfragen und führen Sie die Aggregationsverarbeitung in der Anwendungsschicht durch - Viele kleine Unternehmen haben diesen Ansatz gewählt und verlassen sich entweder auf Webdienste oder Client-Anwendungen, um Daten aus verteilten Quellen zu kombinieren. Dadurch werden zwar die Probleme mit verteilten Anfrage vermieden, aber die Anwendungsinfrastruktur verfügt in der Regel über eine geringere Verarbeitungskapazität und -geschwindigkeit als die Datenbankinfrastruktur, so dass die gewünschten Leistungssteigerungen nur selten erreicht werden.
  3. Hinzufügen einer operativen Data-Warehouse-Aggregationsschicht zur Lösungsarchitektur - Dieser Ansatz erweist sich als die effektivste Methode, um eine High-Performance Datenverarbeitung im Unternehmensmaßstab zu erreichen. Belassen Sie die Daten in den Quellsystemen und replizieren Sie die Informationen, die Sie für Abfragen benötigen, in eine spezielle Data-Warehouse-Schicht, die speziell für die Aggregation und die Bearbeitung von Anfrage entwickelt wurde. Diese Systeme lassen sich häufig mit minimalen Änderungen am Anwendungscode implementieren und können mithilfe von Cloud skaliert werden, um selbst große Unternehmensdatensätze zu unterstützen.

Verteilte Data Warehouses werden wahrscheinlich für viele Jahre Teil des IT-Ökosystems von Unternehmen sein. informierte Entscheidungen darüber zu treffen, wie Daten über diese Data Warehouses hinweg verwalten können und wie Echtzeitvorgänge mit verteilten Anfrage unterstützt werden können, ist von entscheidender Bedeutung, um Ihr Unternehmen auf dem Weg von einer grundlegenden digitalen Transformation hin zu einer data-driven Entscheidungsfindung in Echtzeit und unternehmerischer Agilität zu unterstützen.

Actian Cloud Datenmanagement können helfen. Actian bietet nicht nur eine hybride Cloud Integrationsplattform auf Basis von Actian DataConnect, sondern ermöglicht es Unternehmen auch, Data Warehouses über Cloud und On-Premises einzusetzen.

actian avatar logo

Über Actian Corporation

Actian versetzt Unternehmen in die Lage, Daten in großem Umfang sicher zu verwalten und zu steuern. Die Data-Intelligence-Lösungen von Actian helfen beim Optimieren komplexer Datenumgebungen und einer beschleunigten Bereitstellung von KI-fähigen Daten. Actian-Lösungen sind flexibel, lassen sich nahtlos integrieren und arbeiten zuverlässig in On-Premises-, Cloud- und Hybrid-Umgebungen. Erfahren Sie mehr über Actian, die Datenabteilung von HCLSoftware, unter actian.com.