Erweiterte Suche

Gesundheit & E-Health

Standpunkt

Für eine ausgewogene Datennutzung

Leonie Meroth und Dr. David Reinhardt sind bei BITMARCK für den Bereich Gesundheitswesen zuständig.
Leonie Meroth und Dr. David Reinhardt sind bei BITMARCK für den Bereich Gesundheitswesen zuständig.

Datenschutz und Datennutzung müssen auch in Abwägung zu anderen Grundrechten und Risiken der Nicht-Nutzung betrachtet werden. Dabei müssen sie nicht konträr zueinanderstehen. Lösung und Chance bieten beispielsweise auf Basis von realen Daten erzeugte synthetische, KI-generierte Datensätze.

von Leonie Meroth und Dr. David Reinhardt

veröffentlicht am 21.04.2022

Lernen Sie den Tagesspiegel Background kennen

Sie lesen einen kostenfreien Artikel vom Tagesspiegel Background. Testen Sie jetzt unser werktägliches Entscheider-Briefing und erhalten Sie exklusive und aktuelle Hintergrundinformationen für 30 Tage kostenfrei.

Jetzt kostenfrei testen
Sie sind bereits Background-Kunde? Hier einloggen

In den letzten Jahren wurden in Deutschland immer wieder Diskussionen um Datenschutz und Datensparsamkeit geführt und das ist gut so. Was aber häufig fehlt, ist die Abwägung zwischen Datenschutz und anderen Grundrechten – oder, um es in den Worten des Sachverständigenrats zur Begutachtung der Entwicklung im Gesundheitswesen (2021) zu sagen, muss das Gesundheitssystem zumindest zu einer Definition von Datenschutz kommen, „die auch die Verantwortung für die Nichtverarbeitung von Daten in die Beratungspflicht und den Haftungsrahmen von Datenschutzbeauftragten, -programmen und Versorgern aufnimmt.“

Das hat sich beispielsweise rund um die Öffnungs-Diskussionen während der Corona-Krise immer wieder gezeigt: In diesem Kontext musste auf die vorhandenen Daten anderer Länder (zum Beispiel Israel) zurückgegriffen werden – auch, weil wir in Deutschland vergleichbare Daten nicht zur Verfügung hatten. Die dänische Politikwissenschaftlerin Lykke Friis geht sogar so weit zu sagen, dass Dänemark auch deswegen früher Lockerungsmaßnahmen einführen konnte als Deutschland, weil die Datenlage eine Umfassendere ist. Ähnlich argumentiert auch der Sachverständigenrat Gesundheit, wenn er sagt, dass Datensparsamkeit auch Menschenleben kostet. Das Zeigt: Datenschutz gibt es nicht umsonst. Er wird und muss gegen andere Grundrechte abgewogen werden.

KI-generierte Daten lösen Personenbezug auf 

Es sollten daher neue Wege beschritten und dabei ein größerer Fokus auf sichere Datennutzung gelegt werden. Dazu ist es zum einen wichtig, dass die Datensparsamkeit überdacht wird und Daten sicher gesammelt werden können, zum anderen, dass diese Daten dann auch leichter ausgewertet werden dürfen.

Denn auf dem Weg zur Datennutzung wird es notwendig, dass Lösungsorientierung im Fokus steht – von allen Beteiligten. Und für einen Erfolg sollte es dabei aus unserer Sicht nicht darum gehen, dass nichts getan wurde, um erfolgreiche Datennutzung zu verhindern. Vielmehr muss es darum gehen, gemeinsam daran zu arbeiten, wie die Voraussetzungen geschaffen werden, so dass die Datennutzung sicher umgesetzt werden kann.

Denn Datenschutz und Datennutzung müssen nicht konträr zueinanderstehen. Es gibt Möglichkeiten für eine sichere Datennutzung. Beispielsweise über synthetische Datensätze können große Datensätze zur Beantwortung von Forschungsfragen verwendet werden, ohne dass Rückschlüsse auf die einzelnen Individuen möglich sind. Das ist vor allem bei Gesundheitsdaten wichtig. Während klassische Anonymisierungsverfahren durch sogenannte „Linkage-Attacks“ gefährdet werden und somit nicht immer einen hinreichenden Datenschutz bieten können, lösen synthetische, KI-generierte Daten den Personenbezug auf eine Art und Weise auf, die dennoch eine breite Nutzungsperspektive der Daten ermöglicht. Es entsteht dabei ein synthetisierter Datensatz, der in den Strukturen, Mustern und Ausprägungen dem realen Datensatz entspricht, aber keinerlei Eins-zu-Eins-Beziehung zu real-existierenden Personen aufweist. Der Datengenerierungsprozess baut dabei nicht auf der Verfremdung vorhandener Individual-Beobachtungen auf, sondern stützt sich auf mathematische Modelle, die die statistischen Eigenschaften der Ausgangsdaten beschreiben, um daraus gänzlich neue, künstliche Datensätze zu erzeugen. Auf diese Weise wird implizit sichergestellt, dass selbst indirekte Re-Identifizierungen von echten Individuen unmöglich sind. Darüber hinaus kann in diesen Prozess der Erzeugung synthetischer Daten auch an verschiedenen Punkten aktiv eingegriffen werden und darüber auch Transparenz über den Datengenerierungsprozess hergestellt werden. 

Synthetisierung von Daten ist auch Datenverarbeitung

All das ist zielführend, da eine „strengere“ Anonymisierung von Daten keine befriedigende Lösung darstellen kann, da damit zwangsläufig die Datennutzungspotentiale (bspw. durch Aggregationen oder Löschungen in den Daten zum Zweck der Anonymisierung) reduziert werden. „Die datengetriebene Synthetisierung hat allerdings das Potential das Nullsummenspiel aus Datenschutz und Datennutzung zu durchbrechen“, so Peter Flemming, Factory Lead der Data.Science.Factory bei BITMARCK.

Dabei ist zu betonen, dass es auch für diesen vielversprechenden, innovativen Ansatz Rahmenbedingungen braucht. Die Synthetisierung von Daten ist schließlich selbst eine Datenverarbeitung von Ausgangsdaten, die in der Regel Originaldaten sein müssen (ggf. bereits vorab pseudonymisiert, je nach Anwendungsfall). Es braucht also auch hier idealerweise einen Rechtsrahmen, der die Generierung synthetischer Daten als zulässige Datenverarbeitung betrachtet.

Für einen operativen Einsatz synthetischer Datensätze als primäres Vorgehen zur Datennutzung und Datenbereitstellung wäre im Weiteren über ein Zusammenspiel mit zu definierenden Verifikationsmechanismen nachzudenken. Um Verzerrungen in auf synthetischen Daten entwickelten Erkenntnissen (bspw. aus entsprechenden Modellen) auszuschließen, könnten in abgesicherten Umgebungen der auf synthetischen Daten entwickelte Code, abschließend auf Originaldaten zur Ausführung gebracht werden, um als Ergebnis lediglich die interessierten Modellparameter zurückzuspielen, aber keine feingranularen Individualdaten. Die so verifizierten Ergebnisse können dann weiterverwendet werden. Kommt es an dieser Stelle zu relevanten Verwerfungen wäre entweder der Prozess der Datensynthetisierung zu prüfen oder eine Einzelfallbewertung vorzunehmen, ob eine Nutzung von Echt-Daten im jeweiligen Szenario notwendig, sinnvoll und machbar ist.

Trainieren von KI

Gleichzeitig handelt es sich hierbei um ein, vergleichsweise, junges Forschungsfeld, wo für verschiedene Anwendungsszenarien sicherlich weiterer Forschungs- und Erprobungsbedarf bestehen, wenngleich, insbesondere getrieben durch das US Census Bureau (vgl. Statistisches Bundesamt in Deutschland), bereits einige Projekte erfolgreich umgesetzt wurden.

Auch im Finanz- und auch Automobilsektor sind synthetische Datensätze zum Trainieren von KI bereits im Einsatz und die Möglichkeiten, die sich so für das Trainieren von Algorithmen bieten, sind erheblich. Nach den bis dato vorliegenden Erkenntnissen überwiegen die bereits angesprochenen Vorteile den wenigen Nachteilen.

Auf jeden Fall scheint es an der Zeit, die Anwendungsszenarien für synthetische Daten in einem breiten Kontext praktisch zu erproben und umzusetzen. Das damit verbundene Versprechen der Vereinbarkeit von Datenschutz und Datennutzung erscheint greifbar nah. Denn synthetische Datensätze sind nicht real und trotzdem realistisch. Die breite Nutzung synthetischer Datenbestände könnte gerade unter den Bedingungen des deutschen Datenschutz-Regimes einen veritablen Turbo für die Digitalisierung und die Etablierung datengetriebener Services bedeuten.

Leonie Meroth ist Referentin und Dr. David Reinhardt Experte für Gesundheitswesen bei der BITMARCK-Holding in Essen.

Lernen Sie den Tagesspiegel Background kennen

Sie lesen einen kostenfreien Artikel vom Tagesspiegel Background. Testen Sie jetzt unser werktägliches Entscheider-Briefing und erhalten Sie exklusive und aktuelle Hintergrundinformationen für 30 Tage kostenfrei.

Jetzt kostenfrei testen
Sie sind bereits Background-Kunde? Hier einloggen