Die Datenstrategie, endlich ist sie da. Es ist wichtig, dass wir über Daten reden. Und diese Strategie wird unseren Umgang mit und unser Verständnis von Daten beeinflussen. Darum ist wichtig, zu fragen: Wie reden wir darüber? Über einen Begriff bin ich gestolpert: Die Depersonalisierung von Daten.
Neil Postman schreibt in Technopoly: ... „that technology imperiously commandeers our most important terminology. It defines 'freedom', 'truth', 'intelligence', 'fact', 'wisdom', 'memory', 'history' – all the words we live by. And it does not pause to tell us. And we do not pause to ask“.
Worte und Begriffe schaffen Wahrnehmungen, Wahrheiten und Wirklichkeiten. Neben wir das Wort: Personenschutz. Vor dem inneren Auge entsteht ein Bild: Der Bodyguard wirft sich vor den VIP und bewahrt ihn vor Unbillen. In gleicher Weise agieren die Verbraucherschützer für Verbraucher. Und die Datenschützer?
Anonymisierung und Pseudonymisierung sind von höchster Bedeutung
Erstaunlich, wie ein Mittel zum Zweck einen solch dominanten und falsche Assoziationen hervorrufenden Begriff erhalten konnte. Zu schützen und zu wahren ist doch die Privatsphäre und das Recht auf informationelle Selbstbestimmung des Einzelnen. Zur Erreichung dieser Schutzziele im Kontext der Beschaffung und Auswertung von analoger und digitaler Information wurde ein Rahmenwerk geschaffen, das genau diesem Prozess klare Regeln und klare Schranken auferlegt. Und es heißt: Datenschutz.
Hat man nun regelkonform Informationen über Personen erhoben, deren Maß die gewünschte Detailtiefe übersteigt, etwa indem die Informationen unerwünschte Rückschlüsse über eine Einzelperson erlauben, greift man zu den Techniken der Pseudonymisierung und Anonymisierung. Die Pseudonomisierung entfernt graduell, Schritt für Schritt, den Informationsgehalt eines Datums beziehungsweise eines Datensatzes bezüglich einer Person. Am Ende steht die Anonymisierung, bei der jedwede Information über eine Person unwiederbringlich entfernt ist.
Diese Techniken sind mit anderen, die bereits bei der Datenerhebung oder während der Datenverarbeitung angewandt werden, in unseren Zeiten von hoher, vielleicht sogar höchster Bedeutung. Sie verdienen einen Oberbegriff, den wir uns auf die Fahnen schreiben können.
Depersonalisierung ist ein Krankheitsbild, kein Oberbegriff
Und da steht er, erstmalig in der Datenstrategie der Bundesregierung: Depersonalisierung. Personalisierung ist eine Funktionalität vieler moderner digitaler Verbraucherservices. Aber „De“? Eine Google-Suche liefert die Erkenntnis: Dieser Begriff hat bereits eine andere Bedeutung. „Depersonalisation oder Depersonalisierungserleben bezeichnet allgemein einen Zustand der Selbstentfremdung, bei dem es zum Verlust oder einer Beeinträchtigung des Persönlichkeitsbewusstseins kommt.“ F48.1 in der Klassifikation nach ICD-10 (Wikipedia).
Ich lebe in der Annahme, nicht von dieser Krankheit betroffen zu sein. So kann ich mir nur vorstellen, wie der Ausdruck „Wir wollen Vorreiter bei der Depersonalisierung werden“ auf Betroffene und ihre Angehörigen wirken muss. Erfreulicherweise hat der Begriff im neuen, digitalen Kontext – im Gegensatz zum Datenschutz – noch keinen Einzug in die Alltagssprache und Gesetzestexte genommen. Sprache ist dynamisch und wandelbar. Schreiten wir zum Wandeln.
Worin wollen wir Vorreiter werden?
In verantwortungsvoller, Grundrechte schützender Mehrwertgenerierung aus Daten – zum Wohle jedes Einzelnen, zum Wohle der Gesellschaft. Wir erweitern unsere soziale Marktwirtschaft um die soziale Datenmarktwirtschaft.
Neben der Herausforderung, das Ausgangsmaterial (Daten) für die digitale Wertschöpfung geeignet zu erheben und zur Verfügung zu stellen, stellt sich in vielen digitalen Wertschöpfungsketten die Frage, wie Dritten Zugang auf Daten gewährt werden kann, sodass nur die Information geteilt wird, die geteilt werden soll – und andere eben nicht.
Dies trifft nicht nur für Informationen über Personen zu, die sogenannten personenbezogenen und personenbeziehbaren Daten. Dies gilt auch für die gemeinsame Verwendung von Daten durch zwei oder mehrere Unternehmen. Beispielsweise können die Daten, die für predictive maintenance einer Maschine Verwendung finden, einen hohen Informationsgehalt über die Nutzung der Maschine und – damit verbunden – die Geschäftsabläufe und Geschäftslage eines Unternehmens enthalten. Es würde das Vertrauen in von Daten abhängige Services und Produkte definitiv stärken, wenn es Techniken geben würde, die nicht nur die Information über Personen, sondern auch über Geschäftsgeheimnisse oder gar IP reduzieren könnten.
Wenn nun der Informationsgehalt zudem quantifizierbar wäre – vergleichbar mit dem Alkoholgehalt eines Getränks, der bis hin zum Restalkohol reicht – könnten sich Datennutzungspartner nicht nur gegenseitig vertrauen, sie könnten sich sicher sein. Im Kauf- oder PMaaS (predictive maintenance as a service) Vertrag könnte genau festgehalten werden, welche Daten in welcher Granularität erforderlich sind und welchen Informationsgehalt diese Daten für die Bearbeitung anderer Fragestellungen noch enthalten.
Die Techniken sind geeignet, die Bezeichnungen nicht
Offensichtlich sind die bereits erwähnten Techniken Pseudonymisierung und Anonymisierung durchaus geeignet – nur die Bezeichnungen nicht.
Wenn die Vorreiterstadt Barcelona erklärt, sämtliche Daten, die mit von der Stadt geförderten Projekten erhoben werden, kommen nach erfolgter Pseudonymisierung von Geschäftsgeheimnissen in den Daten auf die offene Plattform, würde vermutlich Verwirrung oder Unverständnis herrschen.
De facto teilt ein Elektrobushersteller natürlich Daten zu Fahrten seiner öffentlich geförderten Elektrobusse, Fahrgastzahlen, Routen, Kilometer und Stromverbrauch. Aber die Bereitschaft, Daten auf eine öffentliche Plattform zu stellen, die einen hohen Informationsgehalt über die komplexe Steuerung des E-Motors erlauben – insbesondere für interessierte Konkurrenten – ist erwartungsgemäß gering.
Es geht um die Reduktion von Informationsgehalt
Und wenn wir eines aus der Diskussion über den Informationsgehalt von Daten über Personen gelernt haben: Fast alles ist personenbeziehbar. Und analog enthält fast jedes Datum Spuren von IP, Spuren von Geschäftsgeheimnissen, Spuren von Top-Secret-Informationen.
Der Begriff, den wir uns auf die Fahnen schreiben sollten, sollte das enge Themenfeld von Informationen über Personen verlassen, und ganz breit die Reduktion eines bestimmten Informationsgehalts aus Daten bezeichnen. Spätere Generationen werden vielleicht in der Lage sein, hier chirurgisch genau vorzugehen. Wir sollten jetzt starten, die Herausforderung in ihrer ganzen Breite und als Basis für die soziale Datenmarktwirtschaft zu sehen.
Und dem Ding einen Namen geben. Wie wäre es mit Info-Elimination?
Christin Schäfer ist Gründerin und Geschäftsführerin der Berliner Data Science Boutique „acs plus“. Die studierte Statistikerin war Mitglied der Datenethikkommission der Bundesregierung.