Cybersecurity icon

Cybersecurity

Standpunkte Sicherheitsrisiken generativer KI minimieren

Emily Gorcenski, Thoughtworks Deutschland
Emily Gorcenski, Thoughtworks Deutschland Foto: Emily Gorcenski

Generative KI (Gen AI) hat sich zu einem Lieblingsspielzeug von Anwender:innen entwickelt – sowohl privat als beruflich. Sicherheitsbedenken kommen dabei häufig zu kurz. Dabei sollte der Datenschutz gerade für Unternehmen höchste Priorität genießen.

von Emily Gorcenski

veröffentlicht am 19.12.2023

Lernen Sie den Tagesspiegel Background kennen

Sie lesen einen kostenfreien Artikel vom Tagesspiegel Background. Testen Sie jetzt unser werktägliches Entscheider-Briefing und erhalten Sie exklusive und aktuelle Hintergrundinformationen für 30 Tage kostenfrei.

Jetzt kostenfrei testen
Sie sind bereits Background-Kunde? Hier einloggen

Generative Künstliche Intelligenz (Gen AI), insbesondere große KI-Sprachmodelle (Large Language Models, LLMs) wie ChatGPT, bieten Unternehmen ein immenses Potenzial. Gleichwohl konfrontieren sie die IT-Sicherheit allerdings mit zwei neuen Risiken: Informationslecks und KI-generierte Schwachstellen.

Ein erhebliches Sicherheitsrisiko beim Einsatz von Gen AI-Lösungen stellen Informationslecks dar. Diese lassen sich sinnvollerweise in drei Kategorien einteilen: 1. öffentliche Daten, 2. Prompt-Veröffentlichungen und 3. Veröffentlichung persönlicher Daten.

Öffentliche Daten

LLMs greifen auf große Datensätze zu, die fast ausnahmslos dem öffentlich zugänglichen Internet entspringen. Und das können auch veraltete oder sogar mittlerweile gelöschte Inhalte sein. Das Risiko von Website-Scraping ist schon lange bekannt. Bislang konnten Scraping-Tools allerdings die gesammelten Daten nicht so einfach und umfassend verarbeiten wie LLMs. Deren Leistungsfähigkeit verändert nun, wie Unternehmen das Risiko bewerten, Informationen online zu veröffentlichen.

Prompt-Veröffentlichungen

Die zweite Bedrohung ist subtiler und gefährlicher für die IT-Sicherheit. Viele LLM-Produkte versuchen, sich anhand der Prompts zu verbessern – insbesondere jüngere Entwicklungen mit zweifelhaften Sicherheitsversprechen. Das bedeutet auch, dass alle dabei gesammelten Informationen in den Informationspool des Modells gelangen und jederzeit in einem anderen Dialog mit Dritten auftauchen können. Software-Code, Datenmodelle oder Anforderungen an neue Produkte können vertrauliche Informationen enthalten. Für böswillige Akteure sind solche Lecks unbezahlbare Quellen. Auch Daten zu bevorstehenden Produkteinführungen, Infrastrukturdetails oder Geschäftsstrategien können so zu einer unfreiwilligen Veröffentlichung gelangen.

Veröffentlichung persönlicher Daten

Personenbezogene Daten zu nutzen, bringt einen weiteren Unsicherheitsfaktor ein. Verwenden zum Beispiel Vertriebsmitarbeiter:innen ChatGPT, um E-Mails an Kund:innen zu schreiben, können sie so unabsichtlich personenbezogene Daten preisgeben. Kürzlich gab es eine Datenpanne bei Open AI, bei der Benutzer:innen Teile des Interaktionsverlaufs anderer Benutzer:innen sehen konnten. Falls hier sensible personenbezogene Daten zu sehen waren, ist das eine grobe Verletzung des Datenschutzes.

KI-generierte Schwachstellen

Verwenden Software-Entwickler:innen ein Gen AI-Tool, um sich Code erstellen zu lassen, kann das zu Sicherheitslücken führen. Da die Lerndaten erstens aus dem gesamten Internet stammen und zweitens historisch sind, können diese falsch, ineffizient, veraltet oder unsicher sein. Ein LLM kann zudem den vorliegenden Code nicht auf Best-Practice-Standards und Sicherheitslücken prüfen. Somit liegt die Verantwortung bei den Entwickler:innen, die den gesamten Code prüfen müssen. Eine umsichtige Implementierung und klare Richtlinien können Unternehmen helfen, viele der Sicherheitsrisiken zu minimieren.

Closed APIs

Eine Möglichkeit, um ein Informationsleck zu vermeiden, sind „Closed-API-Modelle“. Dabei verwenden die Modelle den Input nicht zur eigenen Weiterentwicklung, so das Versprechen. Darüber hinaus bieten alle drei großen Cloud-Provider Garantien über eine Datenverarbeitung in der jeweiligen Region an, um die Compliance mit den regulatorischen Richtlinien abzusichern. Beide Zusagen sind allerdings neutral kaum zu prüfen.

Eine mögliche Alternative ist es, den Zugang zu der APIs direkt zu sperren und einen intern gehosteten Service als Fassade zwischenzuschalten. Das verbessert die Transparenz über die tatsächliche Nutzung der Tools und bietet Gelegenheit, personenbezogene Daten zu entfernen und Missbrauch zu melden. Die API-Fassade sollte selbstverständlich angemessen überwacht und die Nutzer:innen mit einem Cloud-Single-Sign-On authentifiziert werden. Der Nachteil: Das Modell kann von dem Input nicht gezielt lernen.

Hauseigene KI-Modelle als Schutzschild

Angesichts dieser Herausforderungen bietet sich eine weitere Option für Unternehmen: Sie können eine eigene LLM- oder Gen AI-Lösung hosten. Modelle mit mehreren hundert Milliarden Parametern zu trainieren und zu warten, ist für viele Unternehmen jedoch unwirtschaftlich. Aktuelle Fortschritte haben nun jedoch die Entwicklung kleinerer Modelle ermöglicht: Zum Beispiel Metas Llama und Alpaca AI von der Uni Stanford. Deren Training fällt mit gerade einmal 600 US-Dollar Cloud-Kosten deutlich günstiger aus. Manche Lösungen sind sogar klein genug, um sie auf einem einzelnen Macbook zu trainieren. Lokal gehostete Modelle können sich zudem an die eigene Wissensbasis anpassen und dadurch mit der Zeit sogar besser funktionieren als die öffentlichen Modelle. Eine solche Lösung verringert auch das Risiko eines Datenabflusses deutlich, da alle Informationen innerhalb des unternehmenseigenen geschlossenen Systems bleiben.

Die Software-Entwicklung absichern

Um zu vermeiden, dass sich Schwachstellen in den eigenen Code einschleichen, hilft ein robuster Review-Prozess. Bei Thoughtworks sind wir klare Befürworter:innen des Pair-Programming und überzeugt, dass die Dynamik zweier Personen in der Ende-zu-Ende-Entwicklung entscheidend für hochqualitativen Code ist. Gerade, wenn ein:e Entwickler:in auf KI-basierten Code setzt, ist die Prüfung durch eine zweite Person umso wichtiger. Meiner Erfahrung nach ist KI-gestützter Code dann besonders effektiv, wenn man weiß, wie ein gutes Ergebnis aussehen muss. In diesem Fall kann man zügig und effizient den von der KI vorgeschlagenen Code anpassen.

Insgesamt dürften hochperformante Teams am meisten von KI-generiertem Code profitieren. Sie haben bereits einen funktionierenden Prozess, um Code zu produzieren, bereitzustellen und zu überwachen. Diese Teams haben einerseits die Erfahrung, mehrfach täglich Code zu liefern und wissen andererseits, wie guter Code aussehen sollte. Unerfahrene oder leistungsschwache Teams dagegen profitieren möglicherweise gar nicht von KI – im schlimmsten Falle schadet ihr Einsatz sogar mehr als er nutzt.

Ein:e Engineering Manager:in sollte daher die Continuous Integration/ Continuous Delivery-Pipeline als eine der wirksamsten Lösungen betrachten, um die Risiken durch KI-generierten Code zu minimieren. Hier ist ein guter Punkt, um mit Ihrer KI-Transformation zu beginnen.

Gen AI? Aber sicher!

Gen AI ist heute ein populäres Spiel- und Werkzeug, dessen Einsatz ebenso nutzen wie schaden kann. Umso wichtiger ist es für Unternehmen, klare Regeln im Umgang mit der Technologie aufzustellen, um z. B. den Abfluss sensibler Daten zu vermeiden. Vorsichtsmaßnahmen können zudem verhindern, dass interne Informationen achtlos geteilt werden und an unerwünschter Stelle wieder auftauchen. Der Einsatz eines unternehmenseigenen LLMs kann einige sicherheitsrelevante Herausforderungen lösen, doch um maximale und ebenso nachhaltige Produktivität bei möglichst sicherer Nutzung zu erreichen, müssen Unternehmen eine umfassendere Strategie implementieren.

Emily Gorcenski ist Principal Data Scientist bei Thoughtworks Deutschland. Sie arbeitet als Software Developer und gestaltet datengetriebene Anwendungen. Lesen Sie hier ein Porträt zu Gorcenski.

Lernen Sie den Tagesspiegel Background kennen

Sie lesen einen kostenfreien Artikel vom Tagesspiegel Background. Testen Sie jetzt unser werktägliches Entscheider-Briefing und erhalten Sie exklusive und aktuelle Hintergrundinformationen für 30 Tage kostenfrei.

Jetzt kostenfrei testen
Sie sind bereits Background-Kunde? Hier einloggen