Synthetische Daten sind Daten, die künstlich hergestellt und nicht durch reale Ereignisse erzeugt wurden. Künstliche Intelligenz (KI) generiert synthetische Daten und ersetzt damit reale Daten, die zum training Modellen desMaschinelles Lernen (ML) und zur Vorhersage von Ergebnissen verwendet werden. Die Analyseergebnisse sind bei der Verwendung synthetischer Daten identisch mit denen von realen Daten, da die Daten strukturell und statistisch gleich sind.
Warum sind synthetische Daten wichtig?
Synthetische Daten werden zur Validierung mathematischer Modelle und zum trainieren ML-Modellen verwendet. Sie können aus einer Stichprobe von realen Daten generiert werden. Ihr Umfang kann auf das erforderliche Niveau eingestellt werden, um die Anforderungen der Analyse- oder Testanwendung kennenlernen . Wenn es in der realen Welt keine realen Daten gibt, kann ein ML-Modell entwickelt werden, um repräsentative Daten zu generieren, mit denen Anwendungen getestet werden können, bevor reale Nutzer zur Verfügung stehen.
Diese Art von Daten wird verändert, um mögliche Szenarien zu simulieren und abzuschätzen, wie sie sich auf die Ergebnisse auswirken. Ein Szenario kann zum Beispiel ungültige oder ungewöhnliche Eingaben oder Pfade beim Testen von Anwendungen ausprobieren. Entwickler halten sich in der Regel an traditionelle Anwendungsfälle, da sie wollen, dass ihre Anwendungen wie geplant funktionieren. Qualitätssicherungs-Teams hingegen suchen nach potenziellen Problemen, da ihre Aufgabe darin besteht, eine Anwendung zu verbessern, indem sie Anwendungsfälle untersuchen, die von den Entwicklern möglicherweise nicht berücksichtigt wurden.
Oftmals schreiben Vorschriften wie z. B. über personenbezogene Daten (PII) vor, dass reale Daten nicht aufbewahrt werden dürfen, um die Privatsphäre des Einzelnen zu schützen. In diesem Fall können synthetische Daten die tatsächlichen Daten ersetzen. Dies verringert das Risiko einer versehentlichen Datenfreigabe, liefert aber dennoch dringend benötigte Trendanalysen, die für data driven Entscheidungen genutzt werden können.
Herausforderungen bei synthetischen Daten
Kein Datenmodell entspricht zu 100 % den tatsächlichen Daten, aber es weist Merkmale des realen Datensatz auf. Synthetische Daten erfordern in der Regel eine zusätzliche Validierung, z. B. den Vergleich der generierten Ergebnisse mit von Menschen kommentierten, realen Informationen. Wenn die Stichprobe der realen Daten zu klein ist, wirkt sich dies auf die Genauigkeit der generierten Daten aus. Viele Anwendungen müssen auf synthetische Daten zurückgreifen, weil die tatsächlichen Daten nicht erhältlich sind oder nicht existieren. In diesem Fall werden sie auf der Grundlage von Annahmen generiert, die die Analyse ungültig machen können, weil sie nicht auf empirischen Daten beruhen.
Beispiele für die Anwendung synthetischer Daten
Nachfolgend finden Sie Beispiele, die den Nutzen von synthetischen Daten verdeutlichen:
- Finanzunternehmen erstellen diese Art von Daten mit Aktivitätsmustern, die aus betrügerischen Bank- oder Kreditkartentransaktionen resultieren könnten. Diese Daten werden verwendet, um robustere Algorithmen Betrugserkennung zu entwickeln.
- Die Weitergabe realer Daten außerhalb eines Unternehmens oder der Landesgrenzen kann aufgrund von Datenschutzbestimmungen eingeschränkt sein. Synthetische Daten sind frei von solchen Beschränkungen und ermöglichen die gemeinsame Nutzung von Datensätzen außerhalb eines Unternehmens oder über Grenzen hinweg.
- In der Versicherungsbranche können falsche Ansprüche profiliert werden. Betrüger, die einen Ansatz erfolgreich anwenden, werden die gleiche Masche bei anderen Versicherern versuchen. Synthetische Daten können von dem betroffenen Versicherer generiert und in der gesamten Branche ausgetauscht werden, um die Erkennung von potenziellem Schadenbetrug zu verbessern.
- Selbstfahrende Autos generieren Sensordaten, die mit synthetischen Daten angereichert werden können, um selbstfahrende Algorithmen trainieren , die potenzielle Gefahren mit größerer Genauigkeit erkennen. Der fahrerlose Taxidienst Google Waymo nutzt diesen Ansatz mit Erfolg.
- Natürlichsprachliche Anwendungen wie Amazon Alexa nutzen synthetische Daten, um die Wahrnehmung zu verbessern, ohne dass die Privatsphäre durch die Weitergabe von Gesprächen aus der realen Welt gefährdet wird.
- Qualitätssicherungsmitarbeiter in Softwareentwicklungsteams verwenden generierte synthetische Daten, um die Funktionalität von Anwendungen zu testen. Die generierten Daten können zum Testen auf gültige und ungültige Anwendungsnutzung verwendet werden, um sicherzustellen, dass die Ausnahmebehandlung kodiert ist und wie erwartet funktioniert. Dieselben Testdaten können für Regressionstests zukünftiger Anwendungsiterationen verwendet werden, um sicherzustellen, dass Fehlerbehebungen die derzeitige Funktionalität nicht beeinträchtigen.
- Das Offshoring von QA-Tests an entfernten Standorten wie beispielsweise Indien ist eine gängige Praxis. Die Verwendung synthetischer Daten, die auf tatsächlichen Daten von US-Nutzern basieren, hilft bei der Qualitätssicherung an anderen Standorten.
- Synthetische Daten, die auf realen Daten mit von Menschen geprüften Inhalten basieren, können dazu beitragen, Verzerrungen in ML-Modellen zu reduzieren.
Vorteile
Zu den Vorteilen der Verwendung synthetischer Daten gehören:
- Verringern Sie das Compliance-Risiko beim grenzüberschreitenden data sharing , da Vorschriften wie die Allgemeine Datenschutzverordnung (GDPR) nur für echte Nutzer gelten. Herkömmliche Ansätze, die mehr Risiken bergen, werden anonymisiert oder die Daten werden verschleiert. Synthetisch erzeugte Daten eliminieren Datenschutzrisiken.
- Verringerung der Verzerrungen beim Maschinelles Lernen durch die Verwendung größerer Mengen repräsentativ generierter Daten.
- Erhöhen Sie die Genauigkeit von ML-Modellen mit mehr training .
- Verringern Sie Cyberrisiken, indem Sie tatsächliche Daten durch synthetische Daten ersetzen.
- Bewertung von Veränderungen. Synthetische Daten können modifiziert werden, um die Ergebnisse auf der Grundlage von simulierten Umweltveränderungen, die auf das ML-Modell angewendet werden, zu verändern. Wenn ein Unternehmen eine Produktänderung in Betracht zieht, z. B. die Aktualisierung einer Kamera in einem selbstfahrendes Fahrzeug, können die Auswirkungen zunächst anhand synthetischer Testdaten bewertet werden.
Actian macht Daten einfach
Die Actian Data Platform transformiert Ihr Unternehmen, indem sie die Verbindung, Verwaltung und Analyse von Daten On-Premises und in einer oder mehreren Clouds vereinfacht. Die Actian Data Platform kann analytische Projekte über viele Instanzen hinweg in einer einzigen verbundenen Plattform hosten.