Der Aufstieg von generativer Künstlicher Intelligenz (KI) stellt eine große Chance für die EU dar, einen Wettbewerbsvorteil zurückzugewinnen und die Zukunft der Technologie zu beeinflussen – aufbauend auf Europas großem Pool an Talenten, führenden Bildungs- und Forschungseinrichtungen und dem Zugang zu Rechenkapazitäten.
Um dieses Feld zu durchschauen, müssen wir aber die aktuelle Diskussion um die Verwendung urheberrechtlich geschützter Inhalte für das Training von KI-Modellen verstehen und dabei über jene Vereinfachungen hinausgehen, die dabei dominieren. Wir schauen uns hier sechs verbreitete Missverständnisse an, zusammen mit genaueren Perspektiven auf diese Diskussion und ihre großen gesellschaftlichen Auswirkungen.
Eins: „Generative KI-Modelle enthalten Kopien ihrer Trainingsdaten.“ Wahr oder falsch?
Falsch. Generative KI-Systeme speichern keine komprimierten oder bitgenauen Kopien der Daten, auf denen die Modelle trainiert wurden. Sie benutzen stattdessen mathematische Methoden, um Muster und Konzepte als Parameter und Gewichte zu lernen. Wenn sie zum Beispiel auf Textdaten trainiert werden, passen diese Modelle Parameter an, um die Wahrscheinlichkeiten für bestimmte Wortkombinationen wiederzugeben und so zusammenhängende Antworten geben zu können.
So wie jemand, der viele Bücher zu einem bestimmten Thema gelesen hat und dann ein eigenes Buch mit eigenen Ansichten zu diesem Thema schreibt, kopieren generative KI-Systeme nicht, sondern verstehen Muster und können deshalb originelle Inhalte erstellen.
Wenn ein Modell auf bestimmten Inhalten trainiert wird, kann das den Output beeinflussen, weil das Ergebnis auf statistischen Wahrscheinlichkeiten beruht. Wenn ein Modell zum Beispiel mit Bildern von Katzen trainiert wurde, kann es lernen, was die Eigenschaften einer „Katze“ sind und kann deshalb mit größerer Wahrscheinlichkeit ein genaues Bild einer Katze generieren, wenn es danach gefragt wird.
Zwei: „Wissen, Fakten, Ideen und Daten fließen frei, man kann sie sich nicht aneignen.“ Wahr oder falsch?
Wahr. Grundlegende Rechte und juristische Rahmenwerke – inklusive der Allgemeinen Erklärung der Menschenrechte, der Europäischen Menschenrechtskonvention und der EU-Grundrechtecharta – garantieren jedem das Recht auf Zugang zu und Verbreitung von Informationen. Daten, das heißt digitalisierte Informationen, können nicht angeeignet oder zu Waren gemacht werden. Das gilt auch für Ideen, Konzepte, Systeme oder Methoden, etwas zu tun. Diese Grundsätze, die sich auch in den Urheberrechtsgesetzen niedergeschlagen haben, müssen in den laufenden Diskussionen über KI-Entwicklung unbedingt gewahrt bleiben.
Drei: „Das Urheberrecht schützt Daten – Ende der Geschichte.“ Wahr oder falsch?
Falsch. Das Urheberrecht schützt originäre Ausdrucksformen in Werken, nicht aber die zugrunde liegenden Ideen, Fakten oder Informationen. Mit anderen Worten: Sie dürfen das urheberrechtlich geschützte Werk einer anderen Person nicht ohne deren Erlaubnis verwerten, aber Sie können so viel wie möglich daraus lernen. Diese Unterscheidung ist wichtig, um eine Überdehnung des Urheberrechtsschutzes zu verhindern und die Meinungs- und Informationsfreiheit zu wahren.
Auch die jüngste EU-Urheberrechtsrichtlinie und der AI Act tragen diesem Umstand Rechnung. Das empfindliche Gleichgewicht, das durch die Text- und Data-Mining-Ausnahmen der erstgenannten Richtlinie geschaffen wurde, sollte nicht aufgeweicht werden, um Auslegungen zu vermeiden, die dem Geist des Gesetzes zuwiderlaufen und unbeabsichtigte Folgen für die Grundrechte haben.
Vier: „Alle Regierungen sind sich einig, dass Urheberrechtsinhaber die Möglichkeit haben sollten, das Training von KI-Modellen abzulehnen.“ Wahr oder falsch?
Falsch. Von den wichtigsten Rechtsordnungen im KI-Wettlauf hat bisher nur die Europäische Union den Rechteinhaber:innen die Möglichkeit eingeräumt, sich gegen Text- und Data-Mining zu Trainingszwecken auszusprechen. In Ländern wie den Vereinigten Staaten und Japan (aber auch in Singapur, Südkorea, Malaysia, Israel und Taiwan) gelten Ausnahmeregelungen, die zur Förderung von Innovation und Datenzugänglichkeit beitragen.
Diese Divergenz zwischen der EU und dem Rest der Welt schafft Rechtsunsicherheit und beeinträchtigt die Wettbewerbsfähigkeit der europäischen KI-Industrie sowie die Verfügbarkeit der neuesten Innovationen für europäische Unternehmen und Nutzer. Der Ausgleich zwischen den Interessen der Rechteinhaber:innen und den neuesten technologischen Fortschritten war schon immer komplex und erfordert differenzierte Ansätze. Internationale Zusammenarbeit und Angleichung werden daher der Schlüssel sein, um die Unsicherheit zu verringern, die derzeit die Nutzung von Daten, einschließlich urheberrechtlich geschützter Inhalte, umgibt.
Fünf: „Rechteinhaber haben keine Möglichkeit, zu verhindern, dass ihre Daten in Trainingssätze aufgenommen werden.“ Wahr oder falsch?
Falsch. Rechteinhaber:innen können sich auf das allgemein zugängliche und robuste Protokoll Robots.txt verlassen, um zu verhindern, dass Webcrawler ihre Inhalte aufnehmen. Auch wenn einige Rechteinhaber:innen auf technische Schwierigkeiten hinsichtlich der Granularität des Protokolls stoßen könnten, können die Technologie- und die Kreativbranche zusammenarbeiten, um gezieltere Lösungen und Standards zu entwickeln.
Große Technologieunternehmen stellen Rechteinhaber:innen, die ihre Daten aus den Trainingssätzen ausschließen wollen, bereits ausgefeiltere Werkzeuge zur Verfügung. Es versteht sich von selbst, dass die Suche nach geeigneten technischen Lösungen sowohl im Interesse der Technologie- als auch der Kreativbranche liegt.
Außerdem ist es wichtig klarzustellen, dass die Nutzung der Opt-out-Möglichkeit durch die Rechteinhaber:innen die ansonsten gesetzlich zulässigen Schutzmaßnahmen nicht behindern sollte. Tatsächlich – und damit wird ein weiterer weit verbreiteter Mythos entlarvt – dürfen sich Rechteinhaber:innen nicht in allen Fällen gegen Text- und Data-Mining aussprechen – zum Beispiel, wenn es zum Zweck der Forschung oder der Barrierefreiheit erfolgt. Die sektorübergreifende Bewältigung dieser Herausforderungen ist von entscheidender Bedeutung, um die Einhaltung der Rechtsvorschriften zu gewährleisten und die Innovation zu fördern.
Sechs: „Rechteinhaber wollen ihre Inhalte nur an KI-Unternehmen lizenzieren.“ Wahr oder falsch?
Falsch. Während einige Rechteinhaber:innen Lizenzen für die Nutzung ihrer Werke für die KI-Entwicklung anbieten, sind viele andere sowohl praktisch als auch konzeptionell nicht auf die Lizenzierung von KI vorbereitet. Jüngste Zahlen zeigen, dass die Mehrheit der Websites und Rechteinhaber:innen den Zugang zu ihren Daten für das KI-Training nicht sperren, was darauf hindeutet, dass sie keine Notwendigkeit für ein Opt-out sehen. Umfragen unter den Urheber:innen von Inhalten zeigen auch, dass ihre Ansichten über die Verwendung von Werken für das KI-Training nicht so schwarz-weiß sind, wie manche glauben machen wollen – die Präferenzen der Urheber:innen sind viel nuancierter.
Wenn die Innovation bei generativer KI durch eine umständliche Lizenzierung von KI-Trainingsdaten verlangsamt wird, wird sich das wahrscheinlich negativ auf die Medien- und Kreativbranche auswirken, die zu den ersten gehört, die wirklich von dieser Art von Innovation profitieren. Viele Medienunternehmen und -schaffende erforschen bereits, wie sie KI beispielsweise für ihre eigene Inhaltserstellung nutzen können. Ein Ausgleich zwischen den Interessen der Kreativbranche, dem technologischen Fortschritt und den Grundrechten wird auch in Zukunft von entscheidender Bedeutung sein, um diese Art von Innovation zu fördern.
Boniface de Champris ist Senior Policy Manager bei der Computer & Communications Industry Association (CCIA Europe), spezialisiert auf die EU-Regeln zu Künstlicher Intelligenz.