Verwaltung von Daten über verteilte Data Warehouses hinweg
Actian Germany GmbH
17. Juli 2019

Datenintegration ist, wie die Initiativen zur digitalen Transformation, die sie unterstützt, eine Migration und kein Ziel. Jedes Unternehmen befindet sich irgendwo auf einem Weg von der Vergangenheit zu einem gewünschten Zustand der zukünftigen Integration, den es erreichen möchte. Wenn Ihr Unternehmen bereits seit einigen Jahren besteht, dann haben Sie wahrscheinlich mehrere Datenbanken, Data Marts und Data Warehouses, die für unabhängige Geschäftsfunktionen entwickelt wurden und nun integriert werden müssen, um die ganzheitliche Perspektive zu bieten, die digital transformierte Geschäftsprozesse erfordern.
Vielleicht haben Sie den Ehrgeiz, alle Ihre Daten in einem einzigen Data Warehouse zusammenzuführen (ein potenziell mehrjähriger Aufwand); Sie könnten auch beschließen, Ihre Altsysteme beizubehalten; oder Sie könnten sich dafür entscheiden, Ihre Daten neu zu strukturieren und sie auf regionale Data Warehouses zu verteilen. Alle diese Szenarien haben eines gemeinsam: Sie werden noch eine ganze Weile (wenn nicht sogar auf unbestimmte Zeit) mit verteilten Abfragen zu tun haben.
IT-Führungskräfte akzeptieren zunehmend die Notwendigkeit verteilter Abfragen, machen sich aber gleichzeitig mehr Sorgen über die Auswirkungen auf die Leistung sowohl von operativen Systemen als auch von Analysesystemen, die Daten aus verteilten Lagern nutzen müssen. Cloud Integrationsplattformen und hybride Data Warehouses bieten eine Antwort auf einige dieser Herausforderungen.
Warum sind verteilte Abfragen problematisch?
Verteilte Abfragen, die sich über multiple data Warehouses erstrecken, stellen eine Leistungsherausforderung dar, da die Latenzzeit durch Remote-Joins, iterative Operationen und große Datensätze verursacht wird, die (zusätzlich zur Verarbeitung innerhalb einer Datenbank) auch die Netzwerkinfrastruktur durchlaufen müssen. Je komplexer die Analysen werden und je größer die zugrunde liegenden Datensätze sind (beides häufige Situationen), desto mehr Zeit benötigt die Anfrage für die Verarbeitung.
Bei der Batch-Verarbeitung ist dies keine große Sache, aber die Anwendungsfälle für integrierte Daten konzentrieren sich zunehmend auf die Bereitstellung von Real-Time-Insights. Dies kann Teil eines Transaktionsprozesses sein, den ein Mitarbeiter durchführt (z. B. Überprüfung der Auftragshistorie, Lagerhaltung oder Zusammenstellung einer 360-Grad-Ansicht des Kunden usw.), oder es kann sich um Echtzeit-Überwachung und -Analyse handeln, um die operative Entscheidungsfindung voranzutreiben. In jedem Fall haben die Endnutzer eine geringe Toleranz für Verzögerungen bei der Datenverarbeitung und erwarten, dass die Daten korrekt, robust und aktuell (in Echtzeit) sind.
Wie kann man die Herausforderung der verteilten Abfragen angehen?
IT-Teams haben einige Möglichkeiten, um die Leistungsprobleme bei verteilten Abfragen zu lösen.
- Zusammenführung verteilter Data Warehouses in einer einzigen Instanz - Dies scheint zwar die effizienteste Lösung zu sein, ist aber aufgrund der Investitionen in die alte Infrastruktur, der Migrationskosten und der Unterbrechung des Geschäftsbetriebs oft keine kosteneffiziente Alternative.
- Trennen Sie die Abfragen und führen Sie die Aggregationsverarbeitung in der Anwendungsschicht durch - Viele kleine Unternehmen haben diesen Ansatz gewählt und verlassen sich entweder auf Webdienste oder Client-Anwendungen, um Daten aus verteilten Quellen zu kombinieren. Dadurch werden zwar die Probleme mit verteilten Anfrage vermieden, aber die Anwendungsinfrastruktur verfügt in der Regel über eine geringere Verarbeitungskapazität und -geschwindigkeit als die Datenbankinfrastruktur, so dass die gewünschten Leistungssteigerungen nur selten erreicht werden.
- Hinzufügen einer operativen Data-Warehouse-Aggregationsschicht zur Lösungsarchitektur - Dieser Ansatz erweist sich als die effektivste Methode, um eine High-Performance Datenverarbeitung im Unternehmensmaßstab zu erreichen. Belassen Sie die Daten in den Quellsystemen und replizieren Sie die Informationen, die Sie für Abfragen benötigen, in eine spezielle Data-Warehouse-Schicht, die speziell für die Aggregation und die Bearbeitung von Anfrage entwickelt wurde. Diese Systeme lassen sich häufig mit minimalen Änderungen am Anwendungscode implementieren und können mithilfe von Cloud skaliert werden, um selbst große Unternehmensdatensätze zu unterstützen.
Verteilte Data Warehouses werden wahrscheinlich für viele Jahre Teil des IT-Ökosystems von Unternehmen sein. informierte Entscheidungen darüber zu treffen, wie Daten über diese Data Warehouses hinweg verwalten können und wie Echtzeitvorgänge mit verteilten Anfrage unterstützt werden können, ist von entscheidender Bedeutung, um Ihr Unternehmen auf dem Weg von einer grundlegenden digitalen Transformation hin zu einer data-driven Entscheidungsfindung in Echtzeit und unternehmerischer Agilität zu unterstützen.
Actian Cloud Datenmanagement können helfen. Actian bietet nicht nur eine hybride Cloud Integrationsplattform auf Basis von Actian DataConnect, sondern ermöglicht es Unternehmen auch, Data Warehouses über Cloud und On-Premises einzusetzen.
Abonnieren Sie den Actian Blog
Abonnieren Sie den Blog von Actian, um direkt Dateneinblicke zu erhalten.
- Bleiben Sie auf dem Laufenden: Holen Sie sich die neuesten Informationen zu Data Analytics direkt in Ihren Posteingang.
- Verpassen Sie keinen Beitrag: Sie erhalten automatische E-Mail-Updates, die Sie informieren, wenn neue Beiträge veröffentlicht werden.
- Ganz wie sie wollen: Ändern Sie Ihre Lieferpräferenzen nach Ihren Bedürfnissen.