Datenextraktion: Der ultimative Leitfaden zur Extraktion von Daten aus beliebigen Quellen
Der Begriff „Datenextraktion“ bezeichnet die Übertragung von Daten aus einem Quelldatensatz. Die Datenextraktion ist häufig der erste Schritt einesETL-Prozesses(Extrahieren, Transformieren, Laden) in einer Datenpipeline. Dateningenieure sind für die Durchführung der Datenextraktion sowie für die Versorgung von Funktionen Data Analytics und Maschinelles Lernen ML) verantwortlich.
Data Sharing
Es gibt viele Möglichkeiten, Daten für die Extraktion freizugeben. Die Daten können durch Verschlüsselung gesichert werden, um sie im Ruhezustand und bei der Übertragung vor Diebstahl zu schützen. Das Veröffentlichungs- und Abonnementmodell ist eine Möglichkeit der gemeinsamen Nutzung von Daten. Eine weniger ausgefeilte Methode besteht darin, Dateien mit Hilfe von Protokollen wie FTP und SFTP an die konsumierenden Quellen zu übertragen.
Pull-Mechanismen ermöglichen es Nutzern, Daten über HTTP von einem Webbrowser herunterzuladen, sodass Netzwerkadministratoren keine Sockets öffnen müssen, die zu einem potenziellen Angriffsvektor für Hacker werden könnten. Beim Herunterladen von einer Website wird eine Datei auf der empfangenden Seite der Verbindung, also innerhalb der Firewall, erstellt.
Actian und die Data Intelligence Platform
DieActianData Intelligence Platformwurde speziell entwickelt, um Unternehmen dabei zu unterstützen, ihre Daten in hybriden Umgebungen zu vereinheitlichen, verwalten und zu verstehen. Sie vereint Metadaten , Governance, Datenherkunft, Qualitätsüberwachung und Automatisierung auf einer einzigen Plattform. So können Teams nachvollziehen, woher Daten stammen, wie sie genutzt werden und ob sie internen und externen Anforderungen entsprechen.
Über seine zentralisierte Schnittstelle ermöglicht Actian Erkenntnis Datenstrukturen und -flüsse, wodurch die Umsetzung von Richtlinien, die Behebung von Problemen und die abteilungsübergreifende Zusammenarbeit vereinfacht werden. Die Plattform hilft zudem dabei, Daten mit dem geschäftlichen Kontext zu verknüpfen, sodass Teams Daten effektiver und verantwortungsbewusster nutzen können. Die Plattform von Actian ist darauf ausgelegt, mit sich entwickelnden Datenökosystemen mitzuwachsen und eine konsistente, intelligente und sichere Datennutzung im gesamten Unternehmen zu unterstützen.Fordern Sie Ihre persönliche Demo an.
Quellen für die Datenextraktion
Nachdem die Daten extrahiert wurden, können sie bereinigt, umgewandelt und in Analysedatenbanken geladen werden. Im Folgenden finden Sie einige Beispiele dafür, wie Daten extrahiert und nach Datenquellentyp organisiert werden:
Flache Dateien
Flache Dateien sind zweidimensional und bestehen aus Bytes von Daten. Dateien werden in einem betrieblichen Dateisystem oder in einem Cloud gespeichert. Eine Datei ist als ein Strom von Bits mit speziellen Zeichenfolgen strukturiert, um das Ende der Datei (EOF) oder den Zeilenumbruch (CRLF) zu kennzeichnen, so dass sie als eine Reihe von Aufzeichnungen dargestellt werden können. Jede Aufzeichnung in der Datei kann eine feste Länge oder eine variable Länge haben, die durch die CRLF-Sonderzeichenfolge festgelegt wird. Eine Begrenzungszeichenfolge trennt Felder innerhalb einer Aufzeichnung logisch voneinander. Die Begrenzungszeichenfolge wäre beispielsweise das Komma in einer CSV-Datei. Hilfsprogramme für die Datenextraktion verstehen dieses Format, was das Lesen von flachen Dateien erleichtert. Das Datenextraktionsprogramm liest die Datei Feld für Feld und ordnet die Datentypen wie gewünscht zu. Im Gegensatz zu Datenströmen haben Flat Files einen definierten Lebenszyklus, der aus dem Erstellen, Öffnen, Anhängen, Schließen und Löschen besteht.
Die meisten Anwendungen und Betriebssystemfunktionen erzeugen Protokolldateien, die für die Behandlung von Ausnahmen, die Überprüfung und als Quelle für Analysedaten verwendet werden. Protokolldateien sind in der Regel flache Dateien. Da diese Dateien oft mit begrenzten Aufbewahrungsfristen konfiguriert sind, um Speicherplatz zu sparen, müssen sie extrahiert werden, bevor die Aufbewahrungsfrist abläuft oder überschrieben wird.
Datenströme
Datenströme unterscheiden sich von Flat Files dadurch, dass sie kein Ende haben, so dass das Datenextraktionsprogramm nach dem Öffnen weiterhin auf weitere Daten wartet. Datenströme werden von Verwaltungsanwendungen wie Apache Kafka verwaltet, die die Datenstromquelle aufnehmen und in einer Warteschlange speichern, die von Datenladern oder Datenintegrationsprogrammen abonniert wird. Sobald die Daten erstellt sind, werden sie aufgenommen und den konsumierenden Anwendungen über den Stream-Manager zur Verfügung gestellt. Durch die Veröffentlichung im Abonnementsystem werden die Verwaltungskosten niedrig gehalten und auf der Seite der konsumierenden Anwendung viel Programmierarbeit eingespart.
Einige Anwendungen müssen sofort über Änderungen informiert werden, wie z. B. Aktienhandelssysteme und automatische Fahrsysteme; die meisten Systeme können jedoch eine kurze Verzögerung tolerieren. Anstatt bei jeder Änderung benachrichtigt zu werden, was für die CPU teuer sein kann, ist es oft besser, konsumierende Systeme so zu konzipieren, dass sie die Daten regelmäßig in Stapeln oder Mikrostapeln abrufen. Diese Art der Datenextraktion schützt die konsumierenden Server davor, von den Datenströmen, die sie konsumieren, überfordert zu werden. Nicht alle Anwendungen können Verzögerungen verkraften, weshalb Streaming häufig in Cloud gehostet werden.
Anwendungen
Alle Anwendungen sind darauf ausgelegt, Daten zu empfangen, zu verarbeiten und die Ergebnisse auszugeben. Bei älteren Anwendungen werden in der Regel nicht standardisierte Datenformate verwendet, so dass die Entwickler die Daten z. B. aus der flachen Datei lesen müssen, die den Ausgabebericht enthält. Moderne Webanwendungen sind für den Einsatz in größeren Systemen konzipiert. Sie verwenden in der Regel selbstbeschreibende Standardformate wie JSON, die Metadaten wie Feldnamen, Formate und Längeninformationen enthalten.
Datenbanken
Daten können auf drei Arten aus Datenbanken extrahiert werden: durch das Schreiben einer benutzerdefinierten Anwendung, mit Hilfe eines Datenexportprogramms oder über eine vom Anbieter bereitgestellte Schnittstelle wie ODBC. Die meisten Datenbankanbieter bieten ein Exportprogramm an, das die Daten in eine flache Datei entlädt. Die Daten können in ein kommagetrenntes Format exportiert werden, um eine maximale Portabilität zu gewährleisten. Treiberprogramme wie ODBC und JDBC bieten eine Anwendungsprogrammierschnittstelle (API), die von Entwicklern und Datenintegrationsprogrammen genutzt werden kann.
Für die operative Agilität können Daten aus Datenbanken extrahiert werden, z. B. durch die Pflege von Replikaten, die asynchron aktualisiert werden, so dass weltweit verteilte Büros oder regionale Niederlassungen über eine lokale Kopie verfügen, die ihnen autonomes Arbeiten ermöglicht. In diesem Fall werden Log-Capture-Systeme wie Change-Data-Capture (CDC) Systeme wie HVR verwendet, um Daten zu extrahieren und zu verteilen.
Ein weiterer wichtiger Grund für die Extraktion von Daten aus einer Datenbank ist die backup und Wiederherstellung zur Aufrechterhaltung der Geschäftskontinuität. In diesen Fällen können die Daten als physische Blöcke extrahiert werden, wobei die SQL-Schicht für eine maximale Durchsatzleistung umgangen wird.
FAQ
Data extraction is the movement of data from a source data set and is often the first step in an ETL (extract, transform, and load) process within a data pipeline.
Data engineers are typically responsible for performing data extraction, which feeds data analytics and machine learning functions.
Data can be extracted from flat files, data streams, applications, and databases, each requiring different methods and tools depending on the format and structure of the source.
Data can be extracted from databases by writing a custom application, using a data export tool, or using a vendor-provided interface such as ODBC or JDBC.
CDC systems extract and distribute data from databases to support operational use cases such as maintaining asynchronously updated replicas for globally distributed offices or regional outlets.
Unlike flat files, data streams have no defined end, so extraction utilities continue waiting for new data, often managed through tools like Apache Kafka using a publish-and-subscribe model.
Data can be shared using encryption, publish-and-subscribe models, push protocols like FTP and SFTP, or pull mechanisms that allow consumers to download data via HTTP.
The Actian Data Intelligence Platform brings together metadata management, governance, lineage, quality monitoring, and automation to help organizations unify and manage data across hybrid environments.