Erweiterte Suche

Digitalisierung & KI

Standpunkt

Der Weg zu starker KI: Ein Blick in die Glaskugel

David Goebel und Philipp Bongartz von der Digitalberatung Exxeta
David Goebel und Philipp Bongartz von der Digitalberatung Exxeta Foto: Exxeta

Die Fähigkeiten heutiger KI-Systeme waren vor wenigen Jahren undenkbar. Der entscheidende Faktor ist dabei die Steigerung von Parametern und Rechenkraft. Führt eine weitere Skalierung zu starker KI, fragen der Digitalexperte David Goebel und der Datenwissenschaftler Philipp Bongartz.

von David Goebel und Philipp Bongartz

veröffentlicht am 06.05.2022

Lernen Sie den Tagesspiegel Background kennen

Sie lesen einen kostenfreien Artikel vom Tagesspiegel Background. Testen Sie jetzt unser werktägliches Entscheider-Briefing und erhalten Sie exklusive und aktuelle Hintergrundinformationen für 30 Tage kostenfrei.

Jetzt kostenfrei testen
Sie sind bereits Background-Kunde? Hier einloggen

Im Forschungsgebiet der Künstlichen Intelligenz (KI) hat sich in den letzten Jahren viel getan. Zum ersten Mal ist es schwierig geworden, KI-Systemen ein gewisses Verständnis abzusprechen. Diese Systeme kommen aus dem Bereich Deep Learning – es sind also neuronale Netze, die ihr Wissen oder ihre Fähigkeiten erst durch Lernen erwerben müssen.

Was KI-Systeme aktuell können

KI-Systeme können mittlerweile eine ganze Menge. Sprachmodelle wie GPT-2, GPT-3 und das gerade veröffentliche PaLM, sind in der Lage, Fragen zu beantworten, Witze zu erklären, mathematische Textaufgaben zu lösen und sogar Code auf Anweisung zu schreiben. Trainiert werden sie einfach darauf, für vielfältige Texte das jeweils nächste Wort vorherzusagen. Multi-modale Modelle wie Dall-E, Dall-E 2 oder das frei verfügbare Disco Diffusion können anhand einer Beschreibung Bilder akkurat generieren oder modifizieren. Ihre Architektur und ihr Training sind deutlich komplexer als bei Sprachmodellen. Sie werden anhand von vielen Millionen Text-Bild-Paaren trainiert.

Diese Fähigkeiten zeigen: Hochentwickelte Modelle können heute unleugbar über das Erlernte hinaus generalisieren, wenn sie Aussagen treffen beziehungsweise Bilder erschaffen. Der Code, die Texte, Bilder und Erklärungen, die von diesen Modellen erzeugt werden, sind oft Unikate, die über eine einfache Modifikation einer bereits existierenden Version weit hinaus gehen.

Die Fähigkeiten der neuen Modelle waren vor nur drei Jahren noch vollkommen undenkbar. Was hat sich seitdem verändert?

Das Weltmodell erweitern

In erster Linie wurde tatsächlich nur die Anzahl der Modellparameter erhöht. Das sind die vom Lernalgorithmus anpassbaren Variablen. Sie bestimmen die Größe und Kapazität eines Modells. Die Trainingsdaten der Modelle spiegeln ein sehr limitiertes Bild der Welt wider. Die Kapazität der Modelle scheint aber inzwischen einen Stand erreicht zu haben, der es ihnen erlaubt, diesen begrenzten Teil so exakt zu modellieren, dass es in manchen Fällen dem menschlichen Verständnis entspricht.

Denn auch beim Menschen basiert Intelligenz zu einem großen Teil auf einem sehr präzisen Weltmodell: Wenn es regnet, wird man nass. Falls man sich im Freien aufhält. Außer man steht unter einem Baum. Falls der Baum belaubt ist. Aber wenn es zu lange regnet, dann tropft der Regen auch durch die Blätter.

Die Fähigkeit diese Aussagen nachzuvollziehen, basiert auf einem Weltmodell, dass durch jahrelanges Lernen und durch die Integration sehr großer Datenmengen aufgebaut wurde. Erst durch diesen oft nur implizit bleibenden Detailreichtum ist „gesunder Menschenverstand“ oder vorausplanendes Handeln möglich.

Trotz aller beeindruckenden Fortschritte sind Deep-Learning-Modelle vom menschlichen Verständnis der Welt weit entfernt. Dall-E hat beispielsweise Schwierigkeiten, die vorgegebene Anzahl von Objekten einzuhalten. GPT-3 ist leicht auszutricksen und zeigt in vielen Situationen Verständnislücken.

Mehr Rechenleistung gleich mehr Intelligenz?

Die entscheidende Frage ist, wie weit sich das Verständnis der Deep-Learning-Modelle an unseres annähert, wenn man ihre Kapazität weiter erhöht. Denn die Forscher von OpenAI haben festgestellt, dass sich die Genauigkeit ihrer Modelle mit höherer Parameteranzahl und mehr Trainingsdaten sehr voraussagbar erhöht. Statt auf algorithmische Fortschritte zu setzen, kann man sich ein besseres Modell durch höheren Rechenaufwand erkaufen.

Die höhere Genauigkeit übersetzt sich dann auf unvorhersehbare Art und Weise in neue Fähigkeiten. GPT-3 kann beispielsweise mehrstellige Zahlen addieren, ohne speziell darauf trainiert worden zu sein. Eine Fähigkeit, die der deutlich kleinere Vorgänger GPT-2 noch nicht aufwies.

Genauso wie in der Tierwelt, erhöht sich also auch bei künstlichen neuronalen Netzen die Intelligenz mit der Anzahl der Neuronen. Statt brillanter Ideen oder Inspiration vom menschlichen Gehirn, braucht man vielleicht nur mehr Rechenkraft, um mehr Intelligenz zu erreichen. Eine These, die der KI-Forscher Richard Sutton in seinem viel beachteten Essay „The bitter lesson“ folgendermaßen ausdrückt:

„Die größte Lehre aus 70 Jahren KI-Forschung ist, dass allgemeine Methoden, die Rechenkraft ausnutzen, letztendlich am effektivsten sind, und das mit großem Abstand. […] Um kurzfristig eine Verbesserung zu erzielen, versuchen Forscher menschliches Fachwissen einzusetzen. Aber das Einzige, was langfristig eine Rolle spielt, ist das Ausnutzen von Rechenkraft.“

Blick in die Glaskugel

Die großen Tech-Firmen sind längst dabei die Skalierung von Deep-Learning-Modellen voranzutreiben. Google, Microsoft, Baidu und zahlreiche andere Firmen haben in den letzten zwei Jahren Sprachmodelle mit 100 Milliarden Parametern und mehr trainiert. Europa hinkt jedoch bei der Rechenkraft hinterher.

OpenAI, das mit GPT-3 den Startschuss zu diesem Boom getätigt hat, setzt jetzt auf Modelle, die nicht nur aus Textdaten lernen. Bei diesen multimodalen Modellen tut sich auch das deutsche Start-up Aleph Alpha hervor. Hier liegt das Potenzial, über rein statistische Zusammenhänge von Wörtern hinaus, Dinge über die Welt zu lernen.

In den nächsten Jahren wird mehr und mehr Rechenkraft eingesetzt werden, um immer leistungsfähigere Modelle zu trainieren. Die Trainingsdaten werden vermutlich zunehmend multi-modal werden, um das Weltmodell robust aus vielen Blickwinkeln aufzubauen. Die Grenzen der Skalierung sind uns heute noch unbekannt. Aber vielleicht steht am Ende starke KI.

Philipp Bongartz ist Mathematiker und Datenwissenschaftler und arbeitet als Senior Data Scientist bei der Digitalberatung Exxeta. David Goebel arbeitet dort als Senior Manager.

Lernen Sie den Tagesspiegel Background kennen

Sie lesen einen kostenfreien Artikel vom Tagesspiegel Background. Testen Sie jetzt unser werktägliches Entscheider-Briefing und erhalten Sie exklusive und aktuelle Hintergrundinformationen für 30 Tage kostenfrei.

Jetzt kostenfrei testen
Sie sind bereits Background-Kunde? Hier einloggen