N-Gramme

3.4.2023

ChatBots sind heutzutage schon sehr versiert beim Schreiben von Texten zu jedem beliebigen Sachverhalt. Ohne Kenntnis des Autors ist es schwer zu glauben, dass die Texte nicht-menschlichen, maschinellen Ursprungs sind. Es kommt vor, dass diesen Texten ein quasimenschliches Bewusstsein unterstellt wird, vor allem wenn ein Dialog geführt wird, was aber daran liegt, dass kaum ein Anwender bzw. Fragesteller Hintergründe und Technik der Texterzeugung kennt.

Zugrundeliegende Sprachmodelle wie GPT3/4 nutzen riesige Datenbanken mit Textfragmenten aus Publikationen (Büchern und online-Artikeln). Die Zerlegung eines Textes in Fragmente liefert sogenannte N-Gramme - Monogramme mit einem Buchstaben, Bigramme mit zwei Buchstaben, Trigramme, Tetragramme usw. Jedes N-Gramm besitzt einen Wahrscheinlichkeitswert, der die statistische Häufigkeit innerhalb eines analysierten Textraums (Korpus) beziffert.

Die N-Gramm-Analyse wird verwendet, um die Frage zu beantworten, wie wahrscheinlich auf eine bestimmte Buchstaben- oder Wortfolge ein bestimmter Buchstabe oder ein bestimmtes Wort folgen wird. Die bedingten Wahrscheinlichkeiten für den nächsten Buchstaben der Folge „for ex…“ betragen für eine bestimmte Stichprobe aus dem Englischen in absteigender Rangreihenfolge etwa: a = 0,4, b = 0,00001, c = 0,… mit einer Gesamtsumme von 1. Auf der Grundlage der N-Gramm-Häufigkeiten erscheint also eine Fortsetzung des Fragmentes mit „a“ → „for exa(mple)“ deutlich wahrscheinlicher als die Alternativen.
Die verwendete Sprache ist für die Analyse nicht von Bedeutung, wohl aber ihre Statistik: Die N-Gramm-Analyse funktioniert in jeder Sprache und jedem Alphabet
Die Firma Google hat bislang über 40 Millionen Bücher digitalisiert und in N-Gramme überführt. Sie benutzt die Inhalte als Korpus für ihren Ngram Viewer. Dieser erstellt eine Graphik zur Häufigkeit eines vorgegebenen Begriffs innerhalb eines vorgegebenen Zeitraums (Jahr 1500 bis heute) unter Berücksichtigung des gesamten Korpus.

Ein Beispiel zur Benutzung des Google Ngram Viewers:

Die Anfrage lautet "Wie häufig werden die Sciencefiction-Autoren Isaac Asimov und Stanislaw Lem in der englischsprachigen Literatur seit 1940 genannt?". Im Diagramm können die beiden Verläufe miteinander verglichen werden.

Im englischen Sprachraum ist der Bezug zu Asimov wesentlich höher als zu Lem. Erstaunlicherweise scheinen beide in letzter Zeit fast unbekannt zu sein.

Im deutschen Sprachraum liegt Lem deutlich über Asimov, wobei es scheint, dass Asimov in letzter Zeit mehr Aufmerksamkeit als Lem zukommt.

Es gibt viel Kritik am Google Ngram Viewer.

So wurden von Zeit zu Zeit kleine Fehler beobachtet. In einer Auswertung des Bekanntheitsgrades von Fluggesellschaften im Laufe der Zeit, ist zu sehen, dass „American Airlines“ anscheinend in den 1830er Jahren erwähnt wurde. Dies ist offensichtlich unmöglich, da Flugzeuge erst 1903 und Fluglinien erst 1909 erfunden wurden. Wenn man nachforscht, kann man sehen, dass einer der Artikel, von dem Google sagt, dass er ungefähr aus diesem Jahr stammt, 1843, tatsächlich nicht aus dem Jahr 1843 stammt. Während es The Economist tatsächlich schon im Jahr 1843 (das Gründungsjahr) gab, existierte damals keines der im Artikel erwähnten Unternehmen.
Diese Fehler sind manchmal das Ergebnis des unvollkommenen Digitalisierungsprozesses von Google. Google Books verwendet maschinelles Lernen, um gescannte Bilder von Buchseiten in durchsuchbaren Text umzuwandeln, aber wenn es auf Wörter stößt, die zu schwer zu entziffern sind, gibt es sie an einen Menschen weiter und wie bei allen von Menschenhand ausgeführten Prozessen schleichen sich Fehler ein. Hier wurde ein The Economist Artikel fälschlicherweise ins 19. Jahrhundert versetzt.

Weiterhin werden Begriffe erst dann als relevant angenommen, wenn sie mindestens 40 Mal in einem bestimmten Jahr vorkommen, um das Diagramm nicht zu überladen. Es sollte jedoch auch beachtet werden, dass Ergebnisse zwischen 1500 und 1800 weniger zuverlässig sind, da einfach nicht genügend Bücher veröffentlicht wurden, um genaue Ergebnisse für viele Abfragen zu liefern.

Ein weiterer wichtiger Punkt ist die Tatsache, dass  Google Books nur 4 % aller Veröffentlichungen repräsentiert, was nicht unbedingt repräsentativ für  ein bestimmtes Jahr ist. Obwohl der Ngram Viewer die größte verfügbare Sammlung enthält, ist er weder eine vollständige Sammlung noch viel mehr als eine zufällige Auswahl, die auf Eventualitäten wie Urheberrecht, Verfügbarkeit, Herausgebervereinbarungen und Sprache basiert.

Abschließend sei gesagt, dass der Viewer trotzdem ein interessantes Spielzeug ist, das oft erstaunliche Einsichten liefert, wenngleich die Gültigkeit der Aussagen der wissenschaftlichen Prüfung kaum standhält.

Quellen:

https://books.google.com/ngrams/
https://de.wikipedia.org/wiki/N-Gramm
https://port.sas.ac.uk/mod/book/view.php?id=554&chapterid=328
https://meetglimpse.com/insights/google-ngram/
https://de.wikipedia.org/wiki/Google_Books