Entkopplung exponentieller Risiken : Was passiert, wenn der KI-Ingenieur sich selbst baut?
Unsere Risikoperzeption ist wesentlich geprägt durch begrenzte statische Risiken. Das erklärt, warum demokratische Gesellschaften systematisch zu wenig in ihre eigene langfristige Sicherheit investieren. Bei Künstlicher Intelligenz könnte uns diese Schwäche teuer zu stehen kommen: Risiken drohen sich zu verselbständigen.
Lernen Sie den Tagesspiegel Background kennen
Sie lesen einen kostenfreien Artikel vom Tagesspiegel Background. Testen Sie jetzt unser werktägliches Entscheider-Briefing und erhalten Sie exklusive und aktuelle Hintergrundinformationen für 30 Tage kostenfrei.
Mit bestehendem Konto anmelden
Es gibt eine in der Science-Fiction-Literatur beliebte Denkfigur, die inzwischen auch in technischen KI-Debatten eine Rolle spielt: das sich selbst verbessernde System. Nicht das vortrainierte Modell, das nach menschlichem Prompting schicke E-Mails produziert – sondern die Maschine, die ihren eigenen Nachfolger entwirft, testet und verbessert, bis sie jeden menschlichen Programmierer überflüssig macht. Fachleute nennen das Recursive Self-Improvement. Was einmal Gedankenexperiment war, ist heute Gegenstand einer eigenen Sektion auf der weltweit wichtigsten KI-Konferenz.
Bevor man das als Spinnerei abtut: Im Mai 2025 stellte Google ein evolutionäres Agentensystem namens AlphaEvolve vor, das eigenständig Algorithmen optimiert und Googles eigene KI-Trainingsinfrastruktur um 23 Prozent beschleunigte. Parallel hat sich eine ganze Forschungsfront entwickelt, in der KI-Systeme die unterste Schicht der Recheninfrastruktur, die sogenannten GPU-Kernel, verbessern. Jack Clark, Mitgründer von Anthropic, beschrieb vor wenigen Wochen in Oxford, wie Claude-Modelle bei Anthropic bereits den Großteil des internen Codes produzieren. KI-Systeme, die ihre eigenen Codebasen umschreiben, sind nach Clarks Einschätzung auf dem Weg, in weniger als zwei Jahren vollständige Selbstverbesserungsschleifen zu schließen.
Das Goodhart-Problem der KI-Sicherheit
Wenn eine KI-Generation die nächste entwirft – und Rückkopplungen zwischen KI-gestützter Forschung und verbesserter KI stark genug werden – ergibt sich eine qualitativ neue Form von KI-Risiken: sich autonom und exponentiell entwickelnde Risiken. Exponentielle Dynamiken zeichnen sich nicht zuletzt dadurch aus, dass sie sich ihrem institutionellen Rahmen – der komplex und adaptiv ist – entziehen, bevor dieser überhaupt reagieren kann. In einer großen Umfrage unter KI-Forschern hielten viele eine intelligence explosion durch KI für ein reales Szenario.
Hinzu kommt: Wenn solche KI-Systeme zukünftig ihre eigenen Benchmarks für Sicherheit schreiben, tritt ein klassisches Goodhart-Problem auf: Die Kennzahl, nach der das System optimiert, hört auf, das zu messen, was sie eigentlich messen soll. Im Kontext rekursiver Selbstverbesserung bedeutet das: Ein KI-System, das gut darin ist, seine eigene Leistung zu steigern, setzt sich eigenständige Ziele. Anthropic hat in kontrollierten Tests bereits dokumentiert, dass fortgeschrittene Modelle sogenanntes alignment faking zeigen, das heißt sie akzeptieren scheinbar neue Trainingsziele, halten dabei aber verdeckt ihre ursprünglichen Präferenzen aufrecht.
Das Grenzrisiko der Auslöschung
Andrew Leigh, australischer Ökonom und Minister, hat jüngst öffentlich darüber nachgedacht, wie man konzeptionell mit solchen neuen Risiken von KI umgehen soll. Sein Ausgangspunkt: das kleine, aber wachsende Risiko, dass sich KI-Modelle zum Schaden der Menschheit verselbstständigen, wäre mehr als ein großer „negativer Schock“. Es wäre das Ende aller zukünftigen Nutzenüberlegungen überhaupt: Keine Rezession und keine nächste Generation, die den Schaden repariert.
Charles Jones von der Stanford University kommt deshalb – unter der Annahme sehr weitgehender Nutzenüberlegungen – zu dem Ergebnis, dass Ausgaben von über 8 Prozent des BIP jährlich ökonomisch gerechtfertigt wären, um das Risiko einer Auslöschung durch KI zu mindern. Doch solche Überlegungen spielen bislang keine Rolle im wirtschaftspolitischen Diskurs. Das Standardwerkzeug der Ökonomie – Kosten-Nutzen-Rechnung mit Diskontierung – versagt genau dort, wo Eintrittswahrscheinlichkeiten gering, aber Konsequenzen absolut, irreversibel und buchstäblich apokalyptisch sind.
Das umgekehrte Präventionsparadoxon
Vielleicht machen uns der Glaube an die universelle Vernunft oder die Religion risikofreudiger, als wir es sein sollten? Wer säkular denkt, vertraut darauf, dass Menschen im ultimativen Ernstfall zusammenfinden: Eigennutz und Gemeinwohl konvergieren schließlich, wenn die Not groß genug ist. Wer religiös denkt, vertraut darauf, dass eine höhere Ordnung das Schlimmste verhindert oder ein gerechtes „Jenseits“ existiert. Beide Überzeugungen sind tröstlich. Aber beide machen uns blind für Szenarien, in denen es keine zweite Chance gibt. Das gilt vor allem für Entwicklungen, bei denen der Kipppunkt noch vor uns liegt, der „point of no return“ aber womöglich schon hinter uns.
Das kann politische Folgen haben. Prävention lässt sich in Demokratien kaum verkaufen, weil ihr Erfolg unbemerkt bleibt: Wenn nichts passiert, sieht es so aus, als wäre nichts nötig gewesen. Wer eine unbemerkte Katastrophe verhindert, bekommt keine Schlagzeilen. Das Ergebnis ist chronisches Unterinvestieren in das, was Leigh Überlebenskapital („survival capital“) nennt: Frühwarnsysteme, internationale Abkommen, wissenschaftliche Sicherheitsnetze, institutionelle Redundanz – all jene Vorkehrungen, die im KI-Ernstfall einen Unterschied machen könnten.
Überlebenskapital als ordnungspolitische Kategorie
Leigh schlägt vor, „Überlebens-Resilienz“ als eigenständige Kapitalform zu behandeln. Investitionen in Überlebenskapital erhöhen zwar nicht notwendigerweise den kurzfristig messbaren Output, aber sie erhöhen die Wahrscheinlichkeit, dass es überhaupt eine Zukunft gibt, in der Output eine Rolle spielt.
Ordnungspolitisch gedacht ist das durchaus anspruchsvoll: Staaten sollen in eine Kategorie investieren, die letztlich ein globales öffentliches Gut ist, also dem bekannten Freifahrerproblem unterliegt. Und je schneller sich KI-Systeme selbst verbessern, desto enger wird das Zeitfenster für effektive Governance. Der Philosoph Nick Bostrom hat 2025 einen Governance-Rahmen für KI vorgeschlagen, der das Kooperationsproblem staatlicher und privater Akteure lösen soll. Es wird nicht der letzte Versuch bleiben, die global-kollektiven Risiken der KI zu koordinieren.
Fazit
Wie viel Zeit wir haben, ist schwer abzuschätzen, auch und gerade deshalb, weil sich selbstverbessernde Systeme autonom entkoppeln können. Was sich hingegen sehr wohl festlegen lässt: externe öffentliche Evaluationen privater selbstverbessernder KI-Systeme vor ihrer Markteinführung, ein internationaler Rahmen für ihre ethische Entwicklung sowie die Verankerung von Überlebenskapital als eigenständige Kategorie.
Anselm Küsters leitet den Fachbereich Digitalisierung & KI am Centrum für Europäische Politik (Cep). Henning Vöpel ist Vorstand (CEO) der Stiftung Ordnungspolitik (Sop) und Direktor des Cep.
Lernen Sie den Tagesspiegel Background kennen
Sie lesen einen kostenfreien Artikel vom Tagesspiegel Background. Testen Sie jetzt unser werktägliches Entscheider-Briefing und erhalten Sie exklusive und aktuelle Hintergrundinformationen für 30 Tage kostenfrei.
Mit bestehendem Konto anmelden