Datensynchronisierung

SaaS-Daten, Formen und Grafiken über dem Bild einer Frau in der Technologiebranche

Die Technologie Datensynchronisierung sorgt für die Beständigkeit zwischen Datenkopien in mehreren Repositories oder Anwendungen. Datensynchronisierung ist ein fortlaufender Prozess, der automatisiert werden kann, um sicherzustellen, dass Änderungen und Aktualisierungen in allen Kopien der Daten erhalten bleiben.

Warum ist Datensynchronisierung wichtig?

Die Aufbewahrung mehrerer Datenkopien ist hilfreich für Datenschutz, Ausfallsicherheit, Compliance, Leistung und Scalability. Offsite-Kopien von Daten schützen vor Hardwareausfällen, Stromausfällen und Naturkatastrophen für unternehmenskritische Systeme, indem sie sicherstellen, dass aktuelle, genaue Daten verfügbar sind.

Schemata der Datensynchronisierung

Es gibt verschiedene Mechanismen zur Replikation und Synchronisation von Daten. Im Folgenden werden Ansätze zur Synchronisierung von Daten vorgestellt:

Einseitige oder zweiseitige Datensynchronisierung

Die Datensynchronisierung kann als unidirektional oder bidirektional konfiguriert werden. Es muss jedoch darauf geachtet werden, dass bei einer bidirektionalen Konfiguration Synchronisationsschleifen vermieden werden.

Eingang und Ausgang Datensynchronisierung

Daten können aus vielen Quellen in einen konsolidierten Datensatz synchronisiert werden, was als Eingang bekannt ist, oder von einer Hauptquelle auf mehrere Zielkopien aufgefächert werden. Eine sorgfältige Verwaltung ist erforderlich, um Datenkonflikte mit Hilfe eines regelbasierten Ansatzes zu bewältigen, wie z. B. die Priorisierung der neuesten Kopie und die Vermeidung der Erstellung doppelter Datensätze.

Teilweise und vollständige Datenkopien

Vollständige Kopien von Daten sind für Szenarien der Geschäftskontinuität unerlässlich. In einer Situation, in der verteilte Kopien nur für regionale Berichte verwendet werden, ist eine Teilkopie ausreichend. Ein Beispiel ist ein nationales Einzelhandelsunternehmen, das die regionalen Verkaufsdaten in einem zentralen Data Warehouse in der Zentrale zusammenführt und dann lokalisierte Kopien an die regionalen Filialleiter verteilt, um Einblicke in ihre Filialen zu erhalten.

Synchrone Datenkopien

In vielen Anwendungen, wie z. B. im Finanzwesen, ist eine Transaktion unvollständig, solange das Quell- und das Ziel-Ledger nicht aktualisiert worden sind. In dieser Situation stellt ein zweistufiger Commit-Mechanismus sicher, dass beide Ledger-Aktualisierungen bestätigt wurden, bevor die Transaktion bestätigt wird. In einem Cloud ist die Hauptkopie der Daten diejenige in der Cloud, mit einer sekundären lokalen Kopie. In diesem Fall wird die Cloud zuerst aktualisiert und bleibt in der Schwebe, bis die lokale Kopie aktualisiert ist. Der Nachteil der Beibehaltung synchroner Kopien ist die Leistung, da die Anwendung auf beide Aktualisierungen warten muss, bevor sie fortfahren kann.

asynchrone Replikation

Der Hauptvorteil der asynchronen Datenreplikation besteht darin, dass die Anwendungen fortfahren können, sobald eine Kopie der Daten aktualisiert wurde. Die asynchrone Replikation ist eine gute Wahl, wenn die Datenkopien über ein Weitverkehrsnetz (WAN) verteilt sind oder wenn die Daten auf viele Kopien verteilt werden müssen. Viele Replikationssysteme verwenden ein Publish-and-Subscribe-Schema, bei dem das Lager aktualisiert wird, bevor die Datenänderungen in eine Warteschlange gestellt werden, die von allen Abonnenten genutzt werden kann.

Physische Datenkopien

Datenbanksysteme verwenden physische Betriebssicherungen, die die Datenbankdateien, die Konfiguration und die Protokollarchivdateien enthalten.

Logische Datenkopien

Logische Kopien der in einer Datenbank gespeicherten Daten können ein Nutzer sein, das ein DBA in eine flache Datei exportieren kann. Logische Kopien von Schemata können mit einer Replikationssoftware wie High Volume Replicator (HVR) repliziert werden, die Protokolldateien auswertet, um Datensätze einzufügen und zu aktualisieren, die dann zur Erstellung von Anweisungen in strukturierter abfragen (SQL) verwendet werden, die in einer logischen Zielkopie für die Berichterstattung ausgeführt werden. Dieser Ansatz wird häufig als "Change-Data-Capture" (CDC) bezeichnet.

Eine weitere Form einer logischen Datenkopie kann durch die Umwandlung des Dateiformats beim Entladen oder Exportieren einer Datenbanktabelle in ein flaches Dateiformat, wie z. B. eine CSV-Datei (Comma Separated Value), erstellt werden.

Replikation

Viele Datenbanksysteme bieten die Möglichkeit, eine gespeicherte Prozedur auszuführen, bevor oder nachdem eine Änderung an einer Datenbanktabelle vorgenommen wurde. Diese werden als Datenbank-Trigger bezeichnet. Mit Triggern können Daten repliziert werden. Zum Beispiel kann ein POST INSERT TRIGGER eine Kopie der eingefügten Aufzeichnung in einer entfernten Kopie des Datenbankobjekts erstellen. Produkte wie Microsoft OneDrive aktualisieren eine Cloud synchronisierte Kopie einer Dateisystemdatei, sobald diese lokal gespeichert oder geschlossen wird.

Vorteile der Datensynchronisierung

Im Folgenden sind einige der wichtigsten Vorteile der Datensynchronisierung aufgeführt:

Verhindert Datenverluste aufgrund von Geräteausfällen.
Beseitigt die Anfälligkeit einer einzelnen Kopie von Daten.
Bietet Redundanz in einem Szenario der Geschäftskontinuität.

Herausforderungen der Datensynchronisierung

Im Folgenden werden die Herausforderungen beschrieben, die mit der Verwaltung mehrerer Kopien von synchronisierten Daten verbunden sind:

Erhöht die Komplexität.
Verlangsamt möglicherweise eine Anwendung, die den Datensatz verwendet.
Erhöht die Kosten, da mehr Cloud in Anspruch genommen werden können oder Replikationssoftware lizenziert werden muss.