Künstliche Intelligenz : Synthetische Daten brauchen einen Regulierungsrahmen
Synthetische Daten gelten als Ausweg aus dem Datenmangel. Doch Modelle, die auf künstlichen Trainingsdaten aufbauen, können Fehler rekursiv verstärken – gerade in agentischen Systemen ohne menschliche Aufsicht.
Lernen Sie den Tagesspiegel Background kennen
Sie lesen einen kostenfreien Artikel vom Tagesspiegel Background. Testen Sie jetzt unser werktägliches Entscheider-Briefing und erhalten Sie exklusive und aktuelle Hintergrundinformationen für 30 Tage kostenfrei.
Mit bestehendem Konto anmelden
Für Künstliche Intelligenz waren Daten stets der Sauerstoff, der das Feuer am Brennen hält: unsere Bücher, unsere Artikel, unsere Fotografien, unsere digitalen Spuren. Doch dieser Vorrat wird knapper. Während große Sprachmodelle (LLMs) an die Grenze der im Internet verfügbaren menschlichen Daten stoßen, greifen Entwicklerinnen und Entwickler deshalb auf einen neuen Brennstoff zurück: synthetische Daten – künstlich erzeugte Informationen, die reale Daten nachbilden oder ergänzen sollen.
Diese Datenform wird gern als Lösung präsentiert, wenn echte Daten knapp, sensibel oder reguliert sind. Und in der Tat bringt sie erhebliche Vorteile mit sich. Zugleich entsteht aber das, was ich einen „synthetischen Spiegel" nenne: eine fabrizierte Abbildung der Wirklichkeit, die aufgehellt, verzerrt oder nach Belieben retuschiert werden kann. Ohne Standards und einen regulativen Rahmen dafür, wie synthetische Daten erzeugt, dokumentiert, eingesetzt und evaluiert werden, droht sie zum Risikomultiplikator zu werden – insbesondere mit der Ausbreitung agentischer KI-Systeme.
Bestehende Daten- und KI-Regelwerke sind auf statische Modelle oder Systeme mit menschlicher Aufsicht zugeschnitten. Autonome KI-Agenten ziehen dagegen Daten aus heterogenen Quellen, leiten Kontext ab, rufen Tools auf und erzeugen in Echtzeit Artefakte. Fehlerhafte synthetische Daten korrumpieren die gesamte Argumentationskette. Halluzinationen schlagen sich dann nicht mehr nur in fehlerhaftem Text nieder, sondern in Handlungen. Systeme, die auf fingierten und künstlichen Repräsentationen der Realität trainiert wurden, führen zu intransparenten Entscheidungen, schwächen Verantwortlichkeit und verstärken Verzerrungen.
Versprechen und Tücken synthetischer Daten
Generative und agentische KI-Systeme konsumieren nicht nur Daten, sondern erzeugen zugleich genau die synthetischen Daten, mit denen künftige Modelle trainiert werden. Daraus entsteht eine Rückkopplungsschleife: Fehler in einem synthetischen Datensatz können sich systemweit ausbreiten und sich dabei rekursiv und unsichtbar fortpflanzen. In agentischen Systemen sind diese Schwachstellen besonders gravierend, gerade weil kein Human-in-the-Loop existiert, der Drift oder Qualitätsverlust erkennen könnte.
Zwei Punkte begründen in der Regel den Einsatz synthetischer Daten: die wachsende Nachfrage nach skalierbaren, verzerrungsfreien Datensätzen und der regulatorische Druck zugunsten datenschutzfreundlicher KI-Modelle und Datenflüsse. Der AI Act verpflichtet Organisationen, synthetische Alternativen zu prüfen, bevor sie personenbezogene Daten verarbeiten. Der Gesetzestext geht jedoch nicht auf die Auswirkungen einer groß angelegten Nutzung synthetischer Daten ein. Und er enthält auch keine Bestimmungen zur Entscheidungsfindung durch autonome Systeme, die ohne menschliches Eingreifen auf der Grundlage künstlicher Daten erfolgt.
Synthetische Daten versprechen besseren Datenschutz, reichere Datensätze und weniger Verzerrungen. Wo reale Daten kaum zu erheben sind, scheinen sie unverzichtbar. Doch Systeme, die auf ihnen aufbauen, sind nur so verlässlich wie die Realitätstreue dieser Daten. Ohne einheitliche Standards fügen sie ohnehin undurchsichtigen Blackboxes eine weitere Unsicherheitsschicht hinzu.
Die eigentliche Gefahr liegt in dieser Intransparenz und mangelnden Nachvollziehbarkeit. Trifft ein KI-Agent eine folgenreiche Entscheidung – etwa wenn er einen Kreditantrag ablehnt, eine medizinische Auffälligkeit markiert oder ein juristisches Verfahren beeinflusst –, ist es derzeit unmöglich, diese Entscheidung durch die Schichten synthetischer Daten zurückzuverfolgen und festzustellen, ob ihr ein legitimes Muster oder ein künstliches Artefakt zugrunde liegt.
Regulatorischer Rahmen für synthetische Daten
Governance und Standards für synthetische Trainingsdaten bleiben unterentwickelt. Die Frage ist nicht, ob sie nützlich sind – sondern ob wir dem Spiegel trauen können. Während die Ära der Allgemeinen Künstlichen Intelligenz (AGI) näher rückt, schweigen die meisten Datenschutzgesetze zu synthetischen Daten. Nur wenige adressieren sie indirekt über Anonymisierung oder Privacy-Enhancing Technologies (PETs).
Der EU AI Act formuliert in Artikel 10 zu Daten und Daten-Governance bei Hochrisiko-KI-Systemen Qualitätsanforderungen an Trainings-, Validierungs- und Testdaten. Absatz 5 befürwortet den Einsatz synthetischer oder anonymisierter Daten in Hochrisiko-Kontexten – außer wenn sich Verzerrungen nicht durch andere Daten effektiv erkennen und korrigieren lassen.
Das deutet darauf hin, dass Gesetzgeber und Regulierer die Schattenseiten synthetischer oder künstlich erzeugter Daten nicht hinreichend bedacht haben. Die Datenschutz-Grundverordnung (DSGVO) wiederum liefert gar keine Ansatzpunkte. Artikel 4 Nummer 5 definiert „pseudonymisierte Daten" als Informationen, die ohne Hinzuziehung zusätzlicher Angaben nicht mehr einer identifizierten oder identifizierbaren natürlichen Person zugeordnet werden können – eine Definition, die in bestimmten Fällen auf synthetische Daten anwendbar wäre, ohne darüber hinauszugehen.
Synthetische Daten sind nicht per se DSGVO-konform: Sie können nach Erwägungsgrund 26 als personenbezogen gelten, sobald ein vernünftiges Risiko der Re-Identifizierung durch Muster, Inferenzen oder Verknüpfungen mit anderen Datensätzen besteht. Damit gelten sie als pseudonym, nicht als anonym – was eine Rechtsgrundlage und Schutzmaßnahmen erfordert. Hinzu kommt: Bilden künstliche Annäherungen die reale Variabilität und Zusammensetzung der Daten nicht vollständig ab, ist deren Integrität gefährdet.
In den Vereinigten Staaten finden sich auf bundesstaatlicher wie föderaler Ebene kaum Gesetze, Erlasse oder politische Rahmenwerke, die synthetische Daten thematisieren. Eine Ausnahme ist Kaliforniens AB 2013 (Gen AI Training Data Transparency Act), der Entwickler generativer KI-Systeme und -Dienste verpflichtet, den Einsatz synthetischer Daten öffentlich offenzulegen.
Standardisierung kann eine zentrale Rolle dabei spielen, Innovation und technologischen Fortschritt anzuleiten – indem sie Vertrauen schafft. Dringend nötig sind aktualisierte politische Instrumente und Anpassungen rechtlicher Rahmenwerke. Der praktikabelste Ansatz für die Aufsicht über synthetische Spiegel besteht in gezielten Ergänzungen bestehender KI- und Datenschutzregeln. Synthetische Daten müssen als eigenständige regulatorische Kategorie mit spezifischen Eigenschaften anerkannt werden.
Notwendig sind klare Referenzwerte zur Bewertung von Genauigkeit und Nutzwert synthetischer Daten ebenso wie standardisierte Metriken für den Datenschutz. Vergleichbar einer Nährwertkennzeichnung für KI-Datensätze würde eine Dokumentation darüber, wie synthetische Datensätze erzeugt, trainiert und eingesetzt werden, die Transparenz erhöhen. Über quantifizierbare Kennzahlen hinaus braucht es zudem umfassende Evaluierungsrahmen, die synthetische Daten mehrdimensional bewerten – einschließlich ihrer ethischen und gesellschaftlichen Wirkungen.
Da agentische KI-Systeme immer breitere Anwendung finden, liegt das eigentliche Hindernis für die Einführung synthetischer Technologien nicht in der Regulierung oder Aufsicht, sondern im Misstrauen der Öffentlichkeit. Wenn wir unsere Gesellschaften auf AGI vorbereiten wollen, ist es entscheidend, dass Firmen und Verbraucher verstehen, wo die Zielkonflikte zwischen ihrem Nutzen und unerwünschten Folgen verlaufen.
Marcelle Momha ist KI-Beraterin bei der Weltbank und wissenschaftliche Mitarbeiterin im Bereich KI am Data-Smart City Solutions/Bloomberg Center for Cities der Harvard University. Sie bewertet KI-Systeme und entwickelt KI-Strategien, Richtlinien sowie Schulungsprogramme zur Förderung der Technologiekompetenz. Die hier geäußerten Ansichten sind ausschließlich ihre eigenen und spiegeln nicht die Standpunkte ihrer Arbeitgeber wider.
Die Originalversion dieses Textes erschien zunächst bei „Tech Policy Press“.
Lernen Sie den Tagesspiegel Background kennen
Sie lesen einen kostenfreien Artikel vom Tagesspiegel Background. Testen Sie jetzt unser werktägliches Entscheider-Briefing und erhalten Sie exklusive und aktuelle Hintergrundinformationen für 30 Tage kostenfrei.
Mit bestehendem Konto anmelden