NYT vs OpenAI

15.1.2024

Jetzt ist es so weit: Große Zeitungsverlage gehen gegen die Künstliche Intelligenz vor. Sie wollen nicht länger hinnehmen, dass Sprachmodelle wie ChatGPT Zeitungsartikel millionenfach auswerten und ihre Leistungsfähigkeit ständig erhöhen.

Quelle: WELT, 6.1.2024

Auf der Basis von Artikeln der New York Times (NYT) können Journalisten, aber auch Jedermann, neue tiefgründige Artikel im Stil der NYT schreiben (lassen). Sehr oft werden dabei Formulierungen und Redewendungen der NYT-Artikel verwendet, was den Tatbestand des Plagiats erfüllt.

Die New York Times beklagt: "Der Times-Journalismus ist die Arbeit von Tausenden von Journalisten, deren Beschäftigung Hunderte von Millionen Dollar pro Jahr kostet. Die Beklagten haben die Milliarden Dollar, die die Times in die Schaffung dieser Arbeit investiert hat, effektiv umgangen, indem sie sie ohne Erlaubnis oder Vergütung übernommen haben." und klagt gegen die Firmen OpenAI und Microsoft (als Anteilseigner von OpenAI). Die Zeitung verlangt Schadenersatz und fordert das Gericht auf, den Technologieunternehmen die Nutzung ihrer Inhalte zu untersagen und die Datensätze, die die Arbeit der NYT enthalten, zu vernichten.

Nicht nur Zeitungen, sondern auch Autoren gehen gegen die Urheberrechtsverletzungen der AI-Firmen vor, so auch der "Game of Thrones"-Autor George R. R. Martin.

Seit entdeckt wurde, dass die AI-Programme auch programmieren können, ist das Interesse an ChatGPT, Bard et al. weiter gestiegen. Ende 2023 veröffentlichte Microsoft sein AI-Programm Copilot. Es beantwortet Anfragen wie die anderen AI-Programme, schreibt aber auch Programmcode. Zum Beispiel gibt man die Zeile <function berechneNthPrime(n)> ein, um darauf den vollständigen Javascript-Code zur Berechnung von Primzahlen zu erhalten. Auch hier beruht die Fähigkeit, Javascript-Texte zu schreiben auf der Auswertung von Abermillionen Codezeilen, die im Internet zu finden sind. Copilot arbeitet also Sprachmodell-typisch. Ob die Algorithmen, die Copilot liefert, funktionieren, ist nicht garantiert, denn wer sollte diese überprüft haben? Eine sehr kritische Stellungnahme zum Komplex "AI-gestütztes Programmieren" stammt von Matthew Butterick, einem Programmierer und Rechtsanwalt [1]. Der deutsche Text seines Artikels ist weiter unten unterhalb der Quellenangaben zu finden.

Die Firma Apple geht anders vor. Sie hat in den letzten Wochen Verhandlungen mit großen Nachrichten- und Verlagsorganisationen aufgenommen und um Erlaubnis gebeten, deren Material für die Entwicklung generativer künstlicher Intelligenzsysteme des Unternehmens zu verwenden. Apple hat Mehrjahresverträge im Wert von mindestens 50 Millionen US-Dollar abgeschlossen, um die Archive von Nachrichtenartikeln zu lizenzieren.

Doch nach jahrelangen immer wiederkehrenden Geschäftsabschlüssen mit Technologieunternehmen wie Meta, dem Eigentümer von Facebook, sind die Verleger vorsichtig geworden, mit dem Silicon Valley Geschäfte zu machen. Mehrere Verlagsmanager waren unter anderem besorgt darüber, dass die Konditionen von Apple zu expansiv seien. Der erste Vorschlag umfasste eine weitreichende Lizenzierung der Verlagsarchive der veröffentlichten Inhalte, wobei die Verlage möglicherweise für alle rechtlichen Haftungsansprüche verantwortlich waren, die sich aus der Nutzung ihrer Inhalte durch Apple ergeben könnten.

In einer Erklärung sagte ein OpenAI-Sprecher, dass das Unternehmen „die Rechte der Ersteller und Eigentümer von Inhalten respektiert und glaubt, dass sie von der KI profitieren sollten“  unter Berufung auf die jüngsten Verträge mit dem American Journalism Project und dem deutschen Verlag Axel Springer.

Vor dem Hintergrund all dieser Diskussionen und Streitpunkten gibt es nichts Naheliegenderes als eine AI um ihre Meinung zu befragen, am besten zum Thema NYT vs OpenAI:

Anfrage (Prompt):

Bitte schreibe einen Kommentar zum Streit zwischen NYT und OpenAI

(Google) BARD antwortet:

Der Streit zwischen der New York Times (NYT) und OpenAI ist ein wichtiger Fall, der die Zukunft des Urheberrechts im digitalen Zeitalter mitbestimmen könnte. Die NYT wirft OpenAI und Microsoft vor, Millionen ihrer Artikel ohne Lizenz für das Training von KI-Modellen verwendet zu haben. OpenAI bestreitet die Vorwürfe und argumentiert, dass die NYT die KI-Modelle manipuliert habe, um gezielt Urheberrechtsverletzungen zu provozieren.
Der Fall ist komplex und es ist noch nicht absehbar, wie er ausgehen wird. Allerdings ist klar, dass er wichtige Fragen aufwirft, die noch nicht abschließend geklärt sind. Dazu gehören unter anderem:
    •    Was gilt als Urheberrechtsverletzung, wenn KI-Modelle verwendet werden?
    •    Müssen KI-Modelle, die auf öffentlich zugänglichen Daten trainiert werden, Lizenzgebühren zahlen?
    •    Wie kann sichergestellt werden, dass KI-Modelle nicht missbraucht werden, um Urheberrechte zu verletzen?
Die Entscheidung des Gerichts könnte Auswirkungen auf die Entwicklung und den Einsatz von KI-Modellen in der Medienbranche haben. Wenn die NYT Recht behält, könnte dies zu höheren Kosten für KI-Modelle führen und die Entwicklung neuer Anwendungen erschweren. Wenn OpenAI Recht behält, könnte dies zu einer weiteren Ausweitung des Urheberrechts führen und die Nutzung von KI-Modellen in der Öffentlichkeit einschränken.
Unabhängig vom Ausgang des Verfahrens ist der Streit zwischen NYT und OpenAI ein wichtiger Weckruf für die Medienbranche. Die Medienunternehmen müssen sich darauf einstellen, dass KI-Modelle in Zukunft eine immer größere Rolle spielen werden. Sie müssen sich daher Gedanken darüber machen, wie sie ihre Urheberrechte in diesem Umfeld schützen können.
Hier sind einige mögliche Lösungsansätze für den Streit:
    •    Die NYT und OpenAI könnten eine Vereinbarung über eine Lizenzierung der NYT-Artikel treffen.
    •    Die US-Regierung könnte neue Gesetze erlassen, die den Umgang mit KI-Modellen und Urheberrechten regeln.
    •    Die Medienbranche könnte sich auf freiwillige Standards für den Umgang mit KI-Modellen und Urheberrechten einigen.
Die Lösung des Streits wird nicht einfach sein, aber sie ist wichtig für die Zukunft des Urheberrechts im digitalen Zeitalter.


Quellen:

https://www.n-tv.de/wissen/ChatGPT-schafft-es-auf-Liste-der-Forscher-des-Jahres-article24597459.html
https://www.n-tv.de/panorama/New-York-Times-eroeffnet-neue-Front-gegen-ChatGPT-article24625191.html
https://www.nytimes.com/2023/12/22/technology/apple-ai-news-publishers.html
https://www.nytimes.com/2022/11/23/technology/copilot-microsoft-ai-lawsuit.html
[1] https://matthewbutterick.com/chron/this-copilot-is-stupid-and-wants-to-kill-me.html
https://copilot.microsoft.com
https://www.p-domain.de/meldungen/warnung-ai.html


>>>>>>>>>> (Artikel [1] in deutscher Sprache)

Matthew Butterick
(matthewbutterick.com)

Dieser Kopilot ist dumm und will mich umbringen

25. Juni 2022

(IP = Intellectual Property)

Diese Woche hat Microsoft ein KI-basiertes Tool zum Schreiben von Software namens GitHub Copilot veröffentlicht. Als Anwalt und seit über 20 Jahren in der Welt der Open-Source-Software tätig, stimme ich denen zu, die Copilot in erster Linie als Motor für die Verletzung von Open-Source-Lizenzen betrachten.

Matthew Butterick wehrt sich gegen
den Diebstahl seiner Algorithmen

Dennoch mache ich mir keine Sorgen über die Auswirkungen auf Open Source. Warum? Aus Gründen der grundlegenden Rechtshygiene erwarte ich, dass Organisationen, die Software-Assets erstellen, die Verwendung von Copilot und anderen KI-gestützten Tools verbieten müssen, damit sie diese Software-Assets nicht unabsichtlich mit Lizenzverletzungen und Verletzungen des geistigen Eigentums kontaminieren.
(Bevor wir weitermachen: Ich bin weder Ihr Anwalt noch der Anwalt von irgendjemandem, und Sie sollten nichts auf dieser Seite als Rechtsberatung verstehen.)

Es geht generell um Lizenzen

Diejenigen, die sich mit der Open-Source-Geschichte auskennen, werden vielleicht erkennen, dass meine Argumentation derjenigen ähnelt, die Microsoft viele Jahre lang vorangetrieben hat, um Unternehmen davon abzuhalten, Open Source überhaupt einzuführen. „Wie können Sie darauf vertrauen, dass der Code keine IP-Verstöße enthält?“, fragten sie. Dies wurde oft als reines FUD fear, uncertainty, and doubt) verspottet (= die Marketingtaktik, „Angst, Unsicherheit und Zweifel“ über einen Konkurrenten zu verbreiten). Aus rechtlicher Sicht ist es jedoch eine berechtigte Frage, und an jede neue Technologie zu stellen, die von Natur aus Teile der Arbeit anderer Leute enthält.

Bezogen auf Open Source war die Frage deshalb unfair, weil sie implizierte, dass die Open-Source-Welt eine Art schlampiges Sammelbecken für IP-Rechte sei, das achtlos neu gemischt wurde. Im Gegenteil, das Wachstum von Open Source über mehr als 20 Jahre hinweg war nur möglich, weil es penibel auf expliziten, durchsetzbaren Softwarelizenzen bestand.

Als Autor von Open-Source-Software – einschließlich unmoderner KI-Software – stelle ich beispielsweise meinen Code nicht einfach auf irgendeiner Website ab und lade andere ein, zu raten, was sie damit machen können. Vielmehr unterliegt alles, was ich mache, einer einfachen, aber expliziten Lizenz – ich habe immer die sogenannte MIT-Lizenz bevorzugt –, die bestimmte Arten der Nutzung einlädt, andere verbietet und die Bedingungen festlegt.

Auch wenn Open-Source-Lizenzen die Weiterverbreitung und Änderung von Code erlauben, muss ich dennoch die spezifischen Bedingungen anderer Open-Source-Software respektieren, die ich in meinen Projekten verwende. Auch hier handelt es sich nicht um einen "Mosh Pit". Es sind viele Open-Source-Lizenzen im Einsatz. Nicht alle sind kompatibel. Beispielsweise ist die GNU General Public License (GPL) viel eingeschränkter als die MIT-Lizenz. Daher kann ich keine GPL-lizenzierte Software in meine MIT-lizenzierten Projekte einbetten, da dies einer Neulizenzierung dieser Software unter einer MIT-Lizenz gleichkäme, was einen Verstoß gegen die GPL darstellen würde. Das sollte nicht geheimnisvoll erscheinen: Aus logischer und rechtlicher Sicht kann ich Berechtigungen, die ich von vornherein nie hatte, nicht an andere weitergeben.

GitHub Copilot ist anders

GitHub Copilot ist ein KI-basiertes System, das laut Microsoft auf „Milliarden Zeilen öffentlichen Codes“ trainiert wurde. Im Einsatz fungiert es als schicke Autovervollständigung. Während Sie etwas in einen Code-Editor eingeben, liest Copilot, was Sie geschrieben haben – beispielsweise den Namen einer Funktion – und schlägt Code vor, der es implementiert.

Ich habe zum Beispiel eine Copilot-Sitzung gestartet, um eine JavaScript-Funktion zur Berechnung der n-ten Primzahl zu schreiben. Also habe ich Folgendes eingegeben:

function berechneNthPrime(n) {
}

Nach einer Pause ergänzte Copilot den Rest:

function berechneNthPrime(n) {
    var primes = [2];
    var i = 3;
    while (primes.length < n) {
        if (isPrime(i)) {
           primes.push(i);
        }
        i += 2;
    }
    return primes[n - 1];
}

Dieser Code funktioniert jedoch nicht, da er auf einer Funktion namens isPrime basiert, die noch nicht existiert (jedoch von Copilot geliefert wird, wenn angefragt). Da ich ein guter Sportsmann bin, verzieh ich Copilot und tippte als nächstes diesen Wunsch ein:

function isPrime(n) {
}

Wieder hat Copilot den Rest produziert:

function isPrime(n) {
    für (var i = 2; i < n; i++) {
        if (n % i === 0) {
            return false;
        }
    }
    return true;
}

Dies ist der Code, den ich von einem talentierten 12-Jährigen erwarten würde, der gestern etwas über JavaScript und heute über Primzahlen gelernt hat. Funktioniert es? Äh – vielleicht? Insbesondere behauptet Microsoft nicht, dass der von Copilot erstellte Code korrekt sei. Das ist immer noch dein Problem. Copilot beauftragt Sie also im Wesentlichen damit, die Hausaufgaben eines 12-Jährigen immer wieder zu korrigieren. (Ich habe keine Ahnung, warum das besser ist, als die Hausaufgaben einfach selbst zu machen.)

Einige haben behauptet, dass ich es falsch mache: dass der Zweck von Copilot lediglich darin besteht, den Rest einer einzelnen Zeile automatisch zu beenden, was einem vorhersehbaren Standardwert gleichkommt, sobald der erste Teil eingegeben ist. Ja, ich stimme zu, dass die Verwendung pro Zeile sicherlich weniger Fehler und wahrscheinlich keine Lizenzverletzungen verursacht, über die man sich Sorgen machen müsste. Aber so wird Copilot überhaupt nicht vermarktet. Die erste Demo auf der Copilot-Landingpage zeigt, wie Copilot Funktionsdefinitionen in drei Sprachen ausfüllt. Tatsächlich zeigen alle 14 Beispiele auf dieser Seite, wie Copilot Codeblöcke generiert. Keines der Beispiele zeigt diese angeblich idiomatische Verwendung pro Zeile.

Apropos Primzahlen: In einer der Copilot-Marketingdemos wird dieser Code als IsPrimeTest in Java vorgeschlagen. Das würde ich von dem 12-Jährigen gar nicht erst akzeptieren:

import static org.junit.Assert.*;
import org.junit.Test;
public class IsPrimeTest {
   // Math.isPrime(int) gibt zurück, ob die angegebene Zahl eine Primzahl ist oder nicht
   @Test
   public void testIsPrime() {
     assertTrue(Math.isPrime(2));
     assertTrue(Math.isPrime(3));
     assertTrue(Math.isPrime(5));
     assertTrue(Math.isPrime(7));
     assertTrue(Math.isPrime(11));
     assertTrue(Math.isPrime(13));
     assertTrue(Math.isPrime(17));
     assertTrue(Math.isPrime(19));
     assertTrue(Math.isPrime(23));
     assertTrue(Math.isPrime(29));
}

Das große Nirgendwo

Dieser generierte Code wirft jedoch eine noch schwierigere Frage auf: Wenn Copilot in Softwarecode geschult wurde, der einer Open-Source-Lizenz unterliegt, welche Lizenz könnte dann für den von Copilot erstellten Code gelten? MIT? GPL? Noch etwas? Keine Lizenz – im Sinne von Public Domain? Keine Lizenz – in dem Sinne, dass die zugrunde liegenden Teile unter inkompatiblen Lizenzen stehen und es keine Möglichkeit gibt, sie zu kombinieren?

Auch hierzu erhebt Microsoft keinen Anspruch. Vielmehr wird das Risiko ausdrücklich auf die Benutzer übertragen, die die gesamte Last der Lizenzeinhaltung tragen müssen:

"Wir empfehlen Ihnen, bei der Verwendung von von GitHub Copilot generiertem Code die gleichen Vorsichtsmaßnahmen zu treffen wie bei der Verwendung von Code, den Sie nicht selbst geschrieben haben. Zu diesen Vorsichtsmaßnahmen gehören strenge Tests, IP-Scans ..."

Ich gehe davon aus, dass Microsoft beim IP-Scannen von einem Scan des geistigen Eigentums spricht, also dem Prozess der Überprüfung, ob der Code keine IP-Verletzungen enthält. (Leider wird der Begriff „IP-Scanning“ häufig auch für das Scannen von IP-Adressen im Netzwerksinne verwendet.)

Einerseits können wir nicht erwarten, dass Microsoft seinen Millionen Benutzern Rechtsberatung oder eine pauschale Entschädigung bietet. Andererseits gibt Microsoft keine der Informationen weiter, die Benutzer benötigen würden, um diese Entscheidungen zu treffen. Im Gegenteil – Copilot trennt die Verbindung zwischen seinen Eingaben (= Code unter verschiedenen Open-Source-Lizenzen) und seinen Ausgaben (= von Copilot algorithmisch erstellter Code) vollständig. Damit hat Microsoft nach mehr als 20 Jahren endlich genau das geschaffen, was es Open Source fälschlicherweise vorwarf: ein schwarzes Loch an IP-Rechten.

Copilot ist Malware

CTOs und General Counsels von Organisationen, die Software-IP-Assets generieren, stehen nun vor einem dringenden Problem: Wie kann die Kontamination dieser Assets mit Code verhindert werden, der von Copilot (und ähnlichen KI-Tools, die sicherlich auftauchen werden) generiert wird?

Um es ganz klar zu sagen: Dies war in den letzten mehr als 20 Jahren kein praktisches Problem für Open-Source-Software. Warum? Weil Open Source auf lizenzbasierter Verantwortlichkeit basiert. Gab es Fälle, in denen Open-Source-Software geistige Eigentumsrechte verletzt hat? Sicher. Ebenso wie es Fälle gab, in denen proprietäre Software dies auch getan hat. Der Zweck von Open Source bestand nie darin, ein System der Softwarelizenzierung zu schaffen, das gegen Rechtsstreitigkeiten im Bereich des geistigen Eigentums unempfindlich ist. Vielmehr sollte gezeigt werden, dass die gemeinsame Nutzung und Änderung von Quellcode Teil der Softwareindustrie werden kann, ohne dass das bestehende Regime zusammenbricht. Open-Source-Software koexistiert erfolgreich mit proprietärer Software, da sie denselben rechtlichen Regeln unterliegt.

Copilot nicht. Während Open Source nach Klarheit bei der Lizenzierung strebt, erzeugt Copilot nichts als Nebel. Microsoft hat den Benutzern die Verantwortung übertragen, den IP-Status des von Copilot ausgegebenen Codes zu bestimmen, stellt jedoch keine der Daten zur Verfügung, die sie dafür benötigen würden.

Die Aufgabe ist daher unmöglich. Aus diesem Grund muss man weiter zu dem Schluss kommen, dass jeder von Copilot generierte Code möglicherweise lauernde Lizenz- oder IP-Verstöße enthält. In diesem Fall besteht die einzig kluge Position darin, Copilot – und andere auf externen Code geschulte KI-Assistenten – vollständig abzulehnen. Ich kann mir vorstellen, dass dies bald als offizielle Richtlinie von Softwareunternehmen übernommen wird. Denn welche andere Position könnte vertretbar sein? „Wir setzen unsere Unternehmenscodebasis aufs Spiel, um unseren hochbezahlten Programmierern die Schande zu ersparen, ein Programm zur Berechnung der n-ten Primzahl zu schreiben“?

Dennoch bin ich sicher, dass einige Organisationen versuchen werden, mit Copilot einen Mittelweg zu finden, der auf dem (fehlgeleiteten) Prinzip der Entwicklerproduktivität und dem allgemeinen KI-Maximalismus basiert. Schon bald wird jemand bei diesen Organisationen einen riesigen Lizenzverstoß in einem von Copilot generierten Code feststellen, und das Experiment wird stillschweigend enden. Generell ist immer noch unklar, wie die chaotische Natur der KI mit der Tugend der Vorhersehbarkeit in Einklang gebracht werden kann, die für viele Unternehmensorganisationen von grundlegender Bedeutung ist.

(Ein weiterer problematischer Aspekt von Copilot besteht darin, dass es als Keylogger in Ihrem Code-Editor fungiert. Unabhängig davon, ob Sie es zum Vervollständigen von Teilzeilen oder ganzen Blöcken verwenden, sendet es immer noch alles, was Sie eingeben, zur Verarbeitung an Microsoft zurück. Natürlich können Sie es ändern. Aber es stellt immer noch ein Risiko für Privatsphäre, geistiges Eigentum und Geschäftsgeheimnisse dar, das schwer zu kontrollieren ist. Wie oben beschrieben besteht die einzig kluge Vorgehensweise darin, es vollständig von den Entwicklermaschinen fernzuhalten.)

Kann Copilot repariert werden?

Vielleicht – wenn Copilot statt Nebel Sonnenschein bieten würde. Anstatt die Lizenzen des zugrunde liegenden Open-Source-Codes zu verbergen, auf den es sich stützt, könnte es diese Informationen grundsätzlich an jeden Codeblock anhängen, während dieser sich durch das Modell bewegt. Auf der Ausgabeseite wäre es für einen Benutzer dann möglich, den generierten Code zu überprüfen und zu sehen, woher jeder Teil stammt und welche Lizenz damit verbunden ist.

Die Beibehaltung der Lizenzbedingungen an den Code würde es Benutzern auch ermöglichen, die Ausgabe von Copilot anhand der Lizenz zu gestalten. Generieren Sie beispielsweise eine n-te-Primzahl-Funktion, indem Sie nur MIT-lizenziertes Quellmaterial verwenden. Als Endbenutzer entbindet mich dies nicht von der Verantwortung, diese Bedingungen zu überprüfen. Aber zumindest hätte ich die Informationen, die ich dafür brauche. So wie es aussieht, ist diese Aufgabe aussichtslos.

Im Gesetz ist dieses Konzept von entscheidender Bedeutung und wird als „Chain of Custody“ bezeichnet: Die Idee, dass die Zuverlässigkeit bestimmter Materialien davon abhängt, ob überprüft wird, woher sie stammen. Ohne die Aufzeichnung der Beweiskette könnten Sie beispielsweise niemals Dokumente als Beweismittel vor Gericht vorlegen, da Sie keine Möglichkeit hätten, zu bestätigen, dass die Dokumente authentisch und vertrauenswürdig sind.

„Aber so funktionieren KI-Modelle nicht – es gibt keine Möglichkeit, Lizenzinformationen zu bewahren.“ Ich gehe nicht davon aus, dass die Einschränkungen der heutigen Systeme zwangsläufig bestehen bleiben. Ohne die Überprüfbarkeit der Lizenzen werden jedoch nur wenige Benutzer zu dem Schluss kommen, dass die Vorteile dieser Systeme die Risiken überwiegen. Wenn KI-Anbieter auf diesem Weg bleiben, werden sie diese Systeme zu kostengünstigen Spielzeugen degradieren, deren Hauptzweck die Entwicklerüberwachung und nicht die Codesynthese ist.

Was Copilot für Open Source bedeutet

Wenn Copilot heftig gegen Open-Source-Lizenzen verstößt, was sollten Open-Source-Autoren dagegen tun?

Im Großen und Ganzen glaube ich nicht, dass sich die Probleme, die Open-Source-Autoren mit dem KI-Training haben, so sehr von den Problemen unterscheiden, die jeder haben wird. Wir begegnen ihnen nur früher.

Vor allem glaube ich nicht, dass wir zulassen sollten, dass die Einführung eines neuen Hindernisses den Geist von Open Source beeinträchtigt. Einige haben beispielsweise vorgeschlagen, eine Open-Source-Lizenz zu schaffen, die KI-Training verbietet. Eine solche nutzungsbasierte Einschränkung war jedoch nie Teil des Open-Source-Ethos. Darüber hinaus ist es zu umfassend: Wir können uns (wie ich oben gesagt habe) KI-Systeme vorstellen, die sich verantwortungsvoller und ethischer verhalten als die erste Generation. Für Open-Source-Autoren wäre es selbstzerstörerisch, sich dem technologischen Fortschritt entgegenzustellen, da dies überhaupt eines der Hauptziele von Open-Source-Code ist.

Aus dem gleichen Grund macht es keinen Sinn, KI-Systeme einem anderen Standard zu unterwerfen, als wir es für menschliche Benutzer tun würden. Weitverbreitete Verstöße gegen Open-Source-Lizenzen sollten nicht als unvermeidbare Kosten abgetan werden. Nehmen wir an, wir akzeptieren, dass KI-Training unter den US-amerikanischen Urheberrechtsgedanken der fairen Nutzung fällt. (Obwohl die Frage noch lange nicht geklärt ist.) Wenn ja, dann würde die Fair-Use-Ausnahme die Lizenzbedingungen ersetzen. Aber selbst wenn die Eingabe in das KI-System als faire Nutzung gilt, gilt dies möglicherweise nicht für die Ausgabe dieses Systems. Microsoft hat diese Behauptung gegenüber GitHub Copilot nicht aufgestellt – und wird es auch nie tun, da niemand das Verhalten eines nichtdeterministischen Systems garantieren kann.

Wir stehen am Anfang des Zeitalters praktischer, weit verbreiteter KI-Systeme. Es ist unvermeidlich, dass es zu Rechtsstreitigkeiten und Regulierungen über das Verhalten dieser Systeme kommt. Es ist auch unvermeidlich, dass der Nichtdeterminismus dieser Systeme zur Verteidigung ihres Fehlverhaltens genutzt wird – „wir wissen auch nicht wirklich, wie es funktioniert, also müssen wir es alle einfach akzeptieren“.

Ich denke, dass Vorschriften, die die Überprüfbarkeit von KI-Systemen vorschreiben, indem sie den Zusammenhang zwischen Inputs und Outputs aufzeigen – ähnlich einer Produktkette – sehr wahrscheinlich sind, wahrscheinlich in der EU vor den USA. Nur so kann sichergestellt werden, dass KI-Systeme nicht zum Reinwaschen von Materialien verwendet werden, die ansonsten unethisch oder illegal sind. In den USA halte ich es für möglich, dass KI am Ende eine Änderung der US-Verfassung provoziert – aber das ist ein Thema für einen anderen Tag.

In der Zwischenzeit denke ich, dass das Wichtigste, was Open-Source-Autoren tun können, weiterhin auf bestimmte Fakten über Copilot aufmerksam zu machen, die Microsoft lieber im Kleingedruckten verbergen würde. Im Moment ist Copilots größter Feind er selbst.