Es hat sich eingebürgert, bei großen Sprachmodellen wie ChatGPT den Begriff des „Halluzinierens“ zu verwenden, wenn die Modelle beispielsweise falsche Fakten, Referenzen oder Links zu nicht existenten Webseiten generieren. Wir halten diesen Begriff aus verschiedenen Gründen für unspezifisch, irreführend und stigmatisierend.
Einen Zweck, den der Begriff zunächst einmal erfüllt, ist, Anwender davor zu warnen, dass man dem Output von Sprachmodellen nicht blindlings trauen sollte. Sprachmodelle erzeugen lediglich auf Basis von Statistik (Vorhersage des nächsten Wortes) plausibel klingenden Output. Sie sind keine Wahrheitsmaschinen oder Orakel. Häufig entspricht der Output den Tatsachen, dafür gibt es aber keine Garantie. Angelehnt an das verbreitete Modell der menschlichen Kognition „Schnelles Denken – Langsames Denken“ verfügen die Systeme ausschließlich über das schnelle, „intuitive“ System. Sie haben ohne Weiteres keine Möglichkeit, das Generierte noch einmal in Ruhe zu betrachten, zu hinterfragen und zu belegen oder zu revidieren, wie wir Menschen es mit unseren Aussagen tun können.
Erfinden gehört zum Wirkprinzip
Vor diesem Hintergrund zeigt sich schon ein erstes Problem des Begriffes „Halluzinieren“. Er suggeriert im normalen Sprachgebrauch, dass ein System in einem irgendwie gearteten Ausnahmezustand ist, wie Menschen zum Beispiel im Rahmen einer schweren psychischen Erkrankung oder ausgelöst durch Drogen oder Extremsituationen. Das legt den Schluss nahe, dass man die Sprachmodelle „reparieren” oder, um im Bild zu bleiben, „heilen” können müsste, sodass sie nicht mehr halluzinieren. Das geht jedoch nicht, beziehungsweise nur punktuell, etwa durch die Hinzunahme anderer Systemkomponenten oder durch menschliche Intervention, indem man dem System abtrainiert, auf bestimmte Anfragen zu reagieren. Diese Lösungen sind aber nicht allgemein. Das „Erfinden” gehört zum Wirkprinzip der Modelle, das sie so mächtig macht. Die Hoffnung, dass man die gemachten Aussagen in naher Zukunft (automatisch) überprüfen oder belegen können wird, schiebt das Problem nur eine Schicht weiter.
Eine weitere Inkonsistenz liegt in der Interpretation des Begriffs der Halluzination. Bei Sprachmodellen ist das sehr einfach: Stimmt eine Aussage, sagt man, das Modell liegt richtig, stimmt sie nicht, sagt man, es halluziniert. Der Begriff „halluzinieren” im psychiatrischen Sinn beschreibt allerdings eine Sinnestäuschung, also eine Veränderung der Wahrnehmung: Dinge, die nicht da sind, werden gesehen, gehört, gerochen, geschmeckt oder haptisch wahrgenommen. Ein Mensch, der von einer Halluzination berichtet, beschreibt damit eine für ihn absolut real erscheinende Wahrnehmung, die jedoch objektiv keine Grundlage hat. Heutige Systeme Künstlicher Intelligenz (KI) haben hingegen keine Wahrnehmung. Die generierten Aussagen sind einfach manchmal falsch.
KI auf der Couch: Die psychiatrische Perspektive
Falschaussagen im Sinne eines psychiatrischen Befundes können durch Daneben- oder Vorbeireden, Konfabulation oder Pseudologia phantastica beschrieben werden. Daneben-/Vorbeireden beschreibt eine formale Denkstörung, bei der eine Person auf eine Frage, die sie verstanden hat, eine Antwort gibt, die überhaupt nichts mit der Frage zu tun hat, und zum Beispiel auf die Frage nach dem Wetter mit „orange” antwortet. Konfabulation bedeutet, dass eine Person Erinnerungslücken mit Inhalten ausfüllt, die sie selbst für echte Erinnerungen hält. Häufig werden hier bei mehrfachem Nachfragen unterschiedliche Inhalte präsentiert. Eine Pseudologia phantastica beschreibt das bewusste Erzählen falscher Dinge mit der Intention einer subjektiven Vorteilsnahme, also das Lügen. Aus psychiatrischer Sicht müsste man bei den KI-Systemen also näherungsweise von „Konfabulieren” sprechen, denn die Maschinen haben keine Sinnestäuschungen, sie erzählen uns auch nicht bewusst falsche Dinge. Am ehesten füllen sie ihre Wissensdefizite spontan mit passend erscheinenden Inhalten aus, die übrigens beim heutigen Systemdesign bei mehrfachen Anfragen ja auch divergieren können.
Neben der geringen Passgenauigkeit und damit verbunden auch einer nur eingeschränkten Eignung des Begriffes „Halluzination” zum Erklären der Modelle, spricht gegen die Verwendung eines anthropomorphisierenden Begriffes, der sich auf ein Krankheitsbild bezieht, auch noch die Gefahr, hiermit Menschen zu stigmatisieren, die wirklich unter Halluzinationen leiden. Daher empfehlen wir, den Begriff nicht mehr für KI-Modelle zu verwenden.
Wie es besser wäre
Abschließend die Frage, welche Begriffe denn vielleicht besser geeignet sind. Am einfachsten wäre es, zu sagen „das Modell hat den Text statistisch generiert” und durch Aufklärung dafür zu sorgen, dass damit jedem klar ist, dass die Inhalte eben stimmen können oder nur so aussehen. Begleitend könnte man vielleicht auch an den Schnittstellen der Systeme arbeiten und öfter mal einen Selbstzweifel der Form „ich glaube”, „ich meine”, „meines Erachtens”, „ich schlage vor” einbauen. Das beflügelt dann zwar auch wieder den Anthropomorphismus, aber so ist das eben mit der Künstlichen Intelligenz.
Aljoscha Burchardt ist Research Fellow am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Berlin. Xenia Kersting ist Oberärztin an der Klinik für Psychiatrie und Psychotherapie der Universitätsmedizin Mainz.