Daten-Intelligenz

Was sind synthetische Daten?

Actian Germany GmbH

4. Juni 2023

Struktur der Verbindung

Synthetische Daten können als künstlich beschriftete Informationen definiert werden. Sie werden durch Algorithmen oder Computersimulationen erzeugt und sind im Gesundheitswesen, in der Industrie und im Finanzsektor weit verbreitet. Ein Blick zurück auf einen wichtigen Trend in der Welt der Daten.

Die Hauptunterschiede zwischen realen und synthetischen Daten

Synthetische Daten, die auch als künstliche Daten bezeichnet werden, sind computergeneriert und stammen nicht aus realen Quellen. Sie sollen zwar Muster und Merkmale darstellen, die denen von realen Daten ähneln, werden aber nicht direkt aus realen Beobachtungen oder Ereignissen abgeleitet. Es gibt also drei Hauptunterschiede zwischen herkömmlichen Daten und künstlichen Daten.

Repräsentativität

Die erste Unterscheidung zwischen realen Daten und synthetischen Daten betrifft den Begriff der Repräsentativität. Reale Daten stammen aus Quellen, Messungen oder Beobachtungen, die in der realen Welt gemacht wurden. Sie spiegeln die Merkmale und Variationen einer greifbaren, beobachteten Realität wider. Sie sind daher so repräsentativ wie möglich. Synthetische Daten hingegen werden auf programmierte Weise erzeugt. Obwohl sie so konzipiert sind, dass sie Muster und Merkmale reproduzieren, die den realen Daten ähnlich sind, erfassen sie nicht immer die gesamte Komplexität und Variabilität der realen Daten.

Vertraulichkeit

Echte Daten enthalten in der Regel sensible Informationen über Einzelpersonen. Sie unterliegen strengen Vertraulichkeitsgrundsätzen, da es sich um personenbezogene Daten handelt oder die Einhaltung von Vorschriften gefährdet ist. Synthetische Daten hingegen werden so erzeugt, dass sie keine realen oder identifizierbaren Informationen enthalten. Sie bieten daher eine Umgehung von Problemen mit der Vertraulichkeit von Daten und stellen eine sicherere Alternative für die gemeinsame Nutzung, Analyse und Anwendungsentwicklung dar.

Verfügbarkeit

Synthetische Daten können in unbegrenzter Menge erzeugt und auf die spezifischen Anforderungen einer Anwendung zugeschnitten werden. Dies befreit Sie von den Beschränkungen echter Daten in Bezug auf Menge und Verfügbarkeit und bietet Ihnen mehr Flexibilität beim Testen, Experimentieren oder Entwickeln datenintensiver Anwendungen.

Wie werden die synthetischen Daten erzeugt?

Synthetische Daten können mit Hilfe von statistischen Modellen erstellt werden, die die Verteilungen, Korrelationen und Merkmale von realen Daten reproduzieren. Sie können auch durch Simulation erzeugt werden. Dabei werden Szenarien und Prozesse simuliert, die das Verhalten in der Realität nachahmen. Maschinelles Lernen kann verwendet werden, um synthetische Daten durch Lernen aus vorhandenen realen Daten zu erzeugen.

Schließlich können manchmal reale Daten als Grundlage für die Erzeugung synthetischer Daten verwendet werden. In diesem Fall wird eine Reihe von Elementen geändert, um die Vertraulichkeit oder Sensibilität der Informationen zu wahren. In allen Fällen basiert die Generierung synthetischer Daten immer auf einem gründlichen Verständnis der Merkmale und Strukturen Ihrer realen Daten, um deren Realitätsnähe und Repräsentativität zu maximieren.

Was sind die wichtigsten Vorteile von synthetischen Daten?

Flexibler, verfügbarer und oft reichhaltiger - es gibt viele Gründe, sich für die Erstellung synthetischer Daten zu interessieren, denn sie bieten vier große Vorteile:

Begrenzung der Probleme mit der Vertraulichkeit von Daten

Die Generierung von Dummy-Daten, die keine persönlich identifizierbaren Informationen enthalten, bedeutet, dass die Daten gemeinsam genutzt, analysiert und verarbeitet werden können, ohne dass die Privatsphäre des Einzelnen oder Datenschutzbestimmungen gefährdet werden.

Verbessern Sie die Datengenauigkeit

In vielen Fällen können die realen Daten Informationslücken aufweisen. Synthetische Daten helfen, diese Lücken zu schließen, indem sie zusätzliche Daten für Bereiche erzeugen, in denen die realen Daten unvollständig sind. Dadurch entsteht eine vollständigere und genauere Darstellung des gesamten Datensatz. Sie können auch verwendet werden, um Ungleichgewichte in Datenklassen zu korrigieren oder um Ausreißer zu erkennen und zu kompensieren.

Garantie der Datenverfügbarkeit

Echte Daten sind oft knapp und schwer zugänglich. Bei synthetischen Daten gibt es keine quantitativen Beschränkungen oder Abhängigkeiten von begrenzten realen Ressourcen. Sie können nach Belieben erstellt werden, was eine größere Flexibilität bei der Projektrealisierung und der Erforschung von Szenarien ermöglicht.

Kontrolle der mit der Datenerfassung und -speicherung verbundenen Kosten

Das Sammeln von realen Daten kann kostspielig sein, was finanzielle, personelle und materielle Ressourcen angeht. Durch die Verwendung synthetischer Daten ist es möglich, Daten zu geringeren Kosten zu generieren. Darüber hinaus können synthetische Daten On Demand generiert werden, was den Bedarf an Speicherkapazität reduziert und die Kosten optimiert.

Einige Beispiele für die Verwendung von synthetischen Daten

Synthetische Daten erfüllen bereits eine Reihe von Zwecken. Mit synthetischen Standortdaten lassen sich beispielsweise Routen und Bewegungen von Personen oder Fahrzeugen leicht simulieren, was bei der Stadtplanung oder in der Logistik viel Zeit spart.

Synthetische Bild- und Videodaten werden verwendet, um Szenen, Objekte und Bewegungen zu simulieren, und sind in der Welt der virtuellen Realität, der Videoanalyse und des training Objekterkennungsmodellen weit verbreitet. Synthetische Textdaten werden zur Simulation von Dokumenten, Gesprächen und sogar zur Gefühlsanalyse verwendet.

Schließlich können synthetische Finanzdaten erstellt werden, um Transaktionen, Anlageportfolios, Preisschwankungen, Handelsvolumen usw. zu simulieren. Sie sind daher bei der Analyse von Finanzmärkten oder der Entwicklung von Handelsalgorithmen sehr verbreitet.

 
actian avatar logo

Über Actian Corporation

Actian macht Daten einfach. Unsere Datenplattform vereinfacht die Verbindung, Verwaltung und Analyse von Daten in Cloud-, Hybrid- und lokalen Umgebungen. Mit jahrzehntelanger Erfahrung in den Bereichen Datenmanagement und -analyse liefert Actian leistungsstarke Lösungen, die es Unternehmen ermöglichen, datengesteuerte Entscheidungen zu treffen. Actian wird von führenden Analysten anerkannt und wurde für seine Leistung und Innovation mit Branchenpreisen ausgezeichnet. Unsere Teams präsentieren bewährte Anwendungsfälle auf Konferenzen (z. B. Strata Data) und tragen zu Open-Source-Projekten bei. Im ActianBlog behandeln wir Themen wie Echtzeit-Dateneingabe, Datenanalyse, Data Governance, Datenmanagement, Datenqualität, Datenintelligenz und KI-gesteuerte Analysen.