Da Unternehmen immer data driven werden, werden die Daten, die sie sammeln und speichern, immer wertvoller. Ein Geschäftsprozess kann intern oder outgesourct sein, aber die Daten und Metadaten , die sie nutzen, definieren das Unternehmen. Mit der Zeit werden die Daten, die ein Unternehmen erstellt und nutzt, zu seinem Lebenselixier und Wettbewerbsvorteil.
Datenmanagement ist die Praxis, Daten als wertvolle Geschäftsressource zu behandeln. Daten sollten von ihrer Entstehung bis zu dem Punkt verwaltet werden, an dem sie nicht mehr als wertvoll angesehen werden. Die Datenmanagement Association (DAMA) ist ein internationales Gremium für Datenexperten, das eine offizielle Definition von Datenmanagement hat: "Die Entwicklung und Ausführung von Architekturen, Richtlinien, Praktiken und Verfahren, um die Anforderungen eines Unternehmens an den Lebenszyklus von Informationen auf effektive Weise verwalten ." Manuelle Geschäftsfunktionen bestehen aus Prozessschritten mit Verzweigungen, die zugehörige Daten unterstützen. Digitale Geschäftsanwendungen bestehen in ähnlicher Weise aus einer Reihe von Prozessschritten mit Verzweigungen und zugehörigen Daten. Der Unterschied besteht darin, dass die Daten aus dem digitalen Geschäftsprozess sofort wiederverwendet oder umgewandelt werden können, um weiteren Mehrwert zu schaffen.
Datenschutz
Da Daten eine wertvolle Ressource sind, müssen sie geschützt werden. Im Folgenden werden drei Aspekte des Datenschutzes erläutert:
- Bei der Speicherverwaltung müssen die Daten vor Geräteausfällen und Naturkatastrophen geschützt werden, um die Geschäftskontinuität zu gewährleisten. Die RAID-Technologie kann Festplattenvolumina zum Schutz der Daten spiegeln.
- Sicherheitsrichtlinien und -kontrollen schützen Daten vor Cyberkriminalität, einschließlich Diebstahl und Ransomware-Angriffen.
- Transaktionsverarbeitungssysteme und Datenbankmanagementsysteme verwenden Datenprotokollierungs- und Speichersperrschemata, um sicherzustellen, dass Einfügungen und Aktualisierungen vor Stromausfällen geschützt sind und die Datenintegrität gewahrt bleibt. Die Speicherung kann für Transaktionssysteme mit RAID-Technologie optimiert werden, um den Durchsatz durch Striping von Daten über physische Volumes zu maximieren.
Speicherverwaltung
Der geschäftliche Wert von Daten kann im Laufe der Zeit variieren. Die Änderung eines Wechselkurses oder eines Aktienkurses ist für Händler von entscheidender Bedeutung, wenn er sich ändert, da er sich auf Finanztransaktionen auswirkt. Sobald der Datenwert aktualisiert wird, verliert der vorherige Wert erheblich an Wert. In den Tagen, als Mainframe-Computing die Speicherverwaltung beherrschte, nutzten Fachleute Systeme für hierarchisches Speichermanagement (HSM), um die Auswahl der Speichermedien auf der Grundlage des Datenwerts anzupassen. Die am häufigsten genutzten Daten konnten an den inneren Rand der Platten verlagert werden, um die besten Zugriffsgeschwindigkeiten zu erzielen, indem die Latenzzeit aufgrund der Rotationsverzögerung der Platten reduziert wurde.
Der Hauptspeicher CPU war nach heutigen Maßstäben sehr klein, so dass die Solid State Disk (SSD) an der Spitze der Speicherhierarchie stand und die mit Spinning Disks verbundenen Suchzeiten und Rotationsverzögerungen umging. In der Leistungshierarchie folgten die äußeren Zylinder des Plattenspeichers, die für die Speicherung weniger leistungsrelevanter Daten verwendet wurden. Festplattendienstprogramme optimierten in regelmäßigen Abständen die Position der Daten auf den Festplattenzylindern, um die Suchzeit für den Lesekopf auf den Zylindern zu minimieren. Wenn die Daten weniger wertvoll oder kälter wurden, wurden sie auf Magnetbändern archiviert. Die Bandverwaltungssoftware katalogisierte, was auf den einzelnen Bändern gespeichert war. Ältere Bänder wurden in externen Archiven aufbewahrt.
Der Preis für Cloud Speicher richtet sich heute nach der Zugriffsgeschwindigkeit. Der CPU ist am teuersten. Danach kommt RAM, gefolgt von SSD-Speicher. Spinning Disks sind die kostengünstigste Speicherebene. Virtuelle Speichermanager können Festplattenvolumina erstellen, die nicht auf die Kapazität eines einzelnen physischen Geräts beschränkt sind, und können Daten unter der Abdeckung strippen und spiegeln.
Speicherverwaltung für ein DBMS
Datenbankmanagementsysteme (DBMS) können Dateisysteme oder dedizierte Festplatten verwenden, um den Speicher intern verwalten . Geclusterte Dateisysteme wie Hadoop HDFS bieten skalierbar Speicherung durch gemeinsame Nutzung eines Festplattenpools auf mehreren physischen Servern, was sie zu einem beliebten Lager für Data Lakes macht. Viele Datenbankmanagementsysteme sind Cluster, um Abfragen über mehrere physische Server zu verarbeiten.
Ein DBMS speichert die Daten, auf die am häufigsten zugegriffen wird, im gemeinsamen Speicher, im L1- oder L2-Cache oder im Arbeitsspeicher. Um die Datenintegrität zu wahren, werden alle Schreibvorgänge auf nichtflüchtigen Speicher wie SSD oder Diskette ausgeführt. Bei verteilten Transaktionen werden Mechanismen wie das Two-Phase-Commit verwendet, um sicherzustellen, dass alle Schreibvorgänge über mehrere Knoten hinweg atomar oder einzeln erfolgen. Speicher-Latches oder Semaphor-Mechanismen stellen sicher, dass keine Schreibvorgänge überschrieben werden, bevor sie auf die Festplatte übertragen werden.
Ein DBMS führt eine physische Archivierung auf Blockebene durch, um eine Kopie der Datenbank für betriebliche Backups und Wiederherstellungen zu erhalten. Der Datenbankadministrator kann auch Daten auf Objekt- oder Schemaebene exportieren, um eine logische Kopie eines Datensatz zu erstellen. Replikationssoftware kann Datenbank-Trigger verwenden, um SQL INSERT-, UPDATE- und DELETE-Anweisungen abzufangen und die gleichen Anweisungen an eine entfernte Datenbankkopie zu senden. Software zur Erfassung von Änderungsdaten kann verwendet werden, um mehrere zusammenhängende Datenbankobjekte auf skalierbar Weise verwalten , typischerweise durch das Durchsuchen von Protokolldateien nach Änderungen.
Datenkataloge
Das heutige Datenmanagement Fachleute konzentrieren sich heute weniger auf die Speicherung als vielmehr auf die data governance, um sicherzustellen, dass die von einem Unternehmen verwendeten Daten vertrauenswürdig sind. Die Datenabfolge verfolgt, woher die Daten stammen, und Kataloge verfolgen, welche Anwendungen und Benutzer sie nutzen. Dies trägt dazu bei, redundante Datenspeicherung zu reduzieren und die Nützlichkeit der Daten zu fördern. Das Datenmanagement verwaltet den Lebenszyklus der Daten, einschließlich der Speichernutzung und der Stilllegung.
Datenmanagement mit Actian
Der Datenwildwuchs kann beseitigt werden, indem Funktionen dort eingesetzt werden, wo die Daten gespeichert sind. Die Daten können vor Ort oder auf verschiedenen Cloud gespeichert sein. Die Actian Data Platform macht es einfach, Ihre Datenbestände zu nutzen, egal wo sie sich befinden. Die Daten können in ein Data Warehouse geladen oder als externe Datei abgerufen werden, sobald sie in einem Data Warehouse registriert sind. Analytische Abfragen können sich über mehrere Instanzen erstrecken, unabhängig davon, wo sie sich befinden.