Gesundheit-E-Health icon

Gesundheit & E-Health

Standpunkte Werden größere KI-Modelle auch praxistauglicher?

Paul von Bünau und Louise von Stechow, idalab und freie Beraterin
Paul von Bünau und Louise von Stechow, idalab und freie Beraterin

Nach zwei Jahren ChatGPT hat sich Ernüchterung breit gemacht. Denn Halluzinationen und Intransparenz sind in vielen Anwendungen ein größeres Problem als ursprünglich angenommen, allen voran in der Medizin. Doch während immer größere KI-Modelle in Benchmarks neue Rekorde feiern, sind die praktischen Anwendungen ins Stocken geraten. Wo die tatsächlichen Hürden liegen und wie KI im Arztalltag ankommt, erklären Louise von Stechow und Paul von Bünau.

von Paul von Bünau und Louise von Stechow

veröffentlicht am 17.12.2024

aktualisiert am 30.12.2024

Lernen Sie den Tagesspiegel Background kennen

Sie lesen einen kostenfreien Artikel vom Tagesspiegel Background. Testen Sie jetzt unser werktägliches Entscheider-Briefing und erhalten Sie exklusive und aktuelle Hintergrundinformationen für 30 Tage kostenfrei.

Jetzt kostenfrei testen
Sie sind bereits Background-Kunde? Hier einloggen

Die Nobelpreise 2024 standen ganz im Zeichen der Künstlichen Intelligenz. So wurden nicht nur zwei Wegbereiter der Neuronalen Netze (Hinton und Hopfield) ausgezeichnet, sondern auch das DeepMind Team hinter AlphaFold, einer KI-Anwendung in der Strukturbiologie. Nur sechs Jahre nach der Erstpublikation unterstreicht dies das weitreichende Potenzial von AlphaFold, vergleichbar mit der Genschere CRISPR/Cas. So könnte AlphaFold zur Entwicklung neuer Krebstherapien oder Bekämpfung des Klimawandels durch biologisches Geoengineering beitragen.

Immer häufiger wird die KI als Schlüssel zur Lösung globaler Probleme gesehen, insbesondere der Krise der überlasteten Gesundheitssysteme. Wird die KI also bald fehlende Landärzte ersetzen, empathisch mit Patienten sprechen, Diagnosen erstellen und Behandlungen anordnen?

Wo bleiben die bahnbrechenden KI-Anwendungen?

In den letzten zehn Jahren hat die KI nicht nur Go- und Schach-Spielen gelernt, sondern erkennt auch Katzen, Knochenbrüche und Tumore zuverlässig. Seit ChatGPT überholen KI-Sprachmodelle Medizinstudierende in standardisierten Test. Immer mehr Software integriert KI für die Automatisierung von Übersetzungen, Recherche oder der Generierung von E-Mails und Social Media Posts. Tatsächlich bahnbrechende KI-Anwendungen sucht man jedoch vergebens, hier scheint die Entwicklung bei Prototypen steckengeblieben zu sein. Und das, obwohl OpenAI, Google und Meta immer bessere KI-Modelle entwickeln. Wie passt das zusammen?

Dazu muss man verstehen, wie die Leistungsfähigkeit von KI-Sprachmodellen gemessen wird. Tatsächlich handelt es sich bei diesen Benchmarks um große Sammlungen von Aufgaben, wie man sie aus Multiple-Choice-Tests kennt. Darin finden sich Fragen aus der Mathematik-Olympiade neben logischen Rätseln und Wissenstests zur Weltgeschichte. Weil größere KI-Modelle auch mehr Informationen speichern können, schneiden sie dabei auch besser ab. Aber ein Medizinstudent, der alles behalten, aber nichts verstanden hat, wird kein guter Arzt. Gleiches gilt für die KI.

Halluzinationen lassen sich nicht wegoptimieren

Die Hürden für medizinische Anwendungen sind prinzipieller Natur: Halluzinationen und Intransparenz. Statistische KI-Sprachmodelle sind darauf optimiert, Textmuster aus Trainingsdaten so zu kombinieren, dass sie dem Kontext rechnerisch möglichst gut entsprechen. Dabei können nicht nur inhaltlich falsche oder verzerrte Informationen aus den Trainingsdaten wiedergegeben, sondern auch neue falsche Texte generiert werden. Diese sogenannten Halluzinationen sind gefährlich, weil sie oberflächlich plausibel erscheinen.

Zusätzlich sorgt die Intransparenz der KI für fehlendes Vertrauen. Neuronale Netze sind statistische Modelle, die Mustern aus Daten abbilden. Beim Training großer Sprachmodelle werden gigantische Mengen an Texten in Billionen von Zahlen übersetzt. Dieser Prozess erlaubt jedoch keine inhaltliche Interpretation und auch keine Kontrolle der Ergebnisse. Das Modell ist eine Black Box.

Interessanterweise wurde deshalb vorgeschlagen, dass die KI ihre Ergebnisse im Nachhinein selbst erklären könne. Natürlich lassen sich solche Erklärungstexte generieren, nur erlauben diese keine Rückschlüsse auf die Prozesse innerhalb des Modells und sind deshalb keine Begründung im eigentlichen Sinne.

Forscher der Stanford Universität stellten sogar fest, dass es zu einer Verschlechterung der Ergebnisse führen kann, wenn man KI-Sprachmodelle instruiert, für klinische Diagnosen auf Denkansätze medizinischer Experten zurückzugreifen. Menschliche Denkprozesse sind nicht auf KI-Sprachmodelle übertragbar und umgekehrt.

Stärkenorientierter KI-Einsatz statt naiver Vermenschlichung

Taugen Sprachmodelle in der Medizin also nur für unkritische Hilfstätigkeiten wie Transkribieren von Arztbriefen? Keineswegs! Vielmehr kommt es auf den richtigen Einsatz der KI an. Dafür braucht es keine besseren KI-Modelle, sondern grundsätzlich neues Nachdenken über die KI-Technologie an sich.

Zunächst müssen wir uns von der Vermenschlichung der KI befreien, die durch suggestive Anwendungen ChatGPT befördert wurde. Praktisch bedeutet das: Statt der KI menschliche Aufgaben zu übertragen, für die sie nicht geeignet ist, müssen wir neue Ansätze entwickeln, bei denen die KI ihre Stärken ausspielen kann.

Für medizinische Diagnosen beispielsweise ist es wichtig, alle Sinne einsetzen zu können, empathisch auf Patienten reagieren zu können und die eigenen Hypothesen im Dialog mit Kolleginnen kritisch zu hinterfragen. Hier kann die KI nur enttäuschen. Ein stärkenorientierter Einsatz von KI liegt beispielsweise in der Mustererkennung in biologischen und klinischen Daten. So kann KI Medizinern und Forschern helfen, die „Nadel im Heuhaufen“ in gigantischen klinischen Datenmengen zu finden, neue Denkanstöße geben und kreative Lösungen in Diagnose, Behandlung und Medikamentenentwicklung fördern.

Wann kommt der iPhone-Moment für die Generative KI?

Der zweite Schlüssel liegt in neuen Strategien, wie wir mit den Grenzen der KI praktisch umgehen. Tatsächlich handelt es sich dabei um eine ganz neue Herausforderung für das Design von Softwareprodukten: Wie kann man der Fehleranfälligkeit begegnen und dem Nutzer intuitive Tools zur Einschätzung des Risikos an die Hand geben – und zwar so, dass die Software noch Spaß macht? Von diesem iPhone-Moment sind wir heute noch entfernt. Tatsächlich geht gerade Apple beim Einsatz von KI mit Bedacht vor.

Doch während wir grübeln, wie dies gelingen kann, haben viele Patienten bereits „Dr. Google“ durch „Dr. ChatGPT“ ersetzt. Denn häufig ist dies schon heute die bessere Alternative, als auf einen Arzttermin in 10 Monaten zu warten. Langfristig werden wir auf die KI im Gesundheitssystem nicht verzichten können, was auch bedeutet, neu über die Abwägung zwischen potenziellen Risiken und Verfügbarkeit medizinischer Versorgung nachzudenken.

Paul von Bünau ist Mathematiker und seit 10 Jahren Geschäftsführer von idalab, einem Berliner Beratungsunternehmen für Künstliche Intelligenz in Biotechnologie, Pharma und Medizintechnik. Aus einer Vielzahl von Projekten kennt er Fallstricke und Erfolgsfaktoren für den praktischen Einsatz von KI-Sprachmodellen. Paul von Bünau lehrt KI Strategie an der Viadrina Universität Frankfurt (Oder).

Louise von Stechow ist Biologin und Strategieberaterin. Sie berät die Pharmazeutische und Biotech-Industrie zum Einsatz neuer Technologien wie künstlicher Intelligenz in der Medikamentenentwicklung. In ihrem Podcast, als Keynote Speakerin und als Dozentin betrachtet sie die Rolle von revolutionären Biotechnologien und deren Auswirkungen auf Wirtschaft und Gesellschaft.

Lernen Sie den Tagesspiegel Background kennen

Sie lesen einen kostenfreien Artikel vom Tagesspiegel Background. Testen Sie jetzt unser werktägliches Entscheider-Briefing und erhalten Sie exklusive und aktuelle Hintergrundinformationen für 30 Tage kostenfrei.

Jetzt kostenfrei testen
Sie sind bereits Background-Kunde? Hier einloggen