Autor: Maschine
16.5.2019
Journalisten schreiben Texte für Zeitungen, Magazine und online-Medien. Dabei erhalten sie Unterstützung von Computerprogrammen, denen - in der Presse - künstliche Intelligenz zugeschrieben wird.
Beim computergestützten Verfassen von Artikeln übernimmt die Maschine das Data Mining, das heißt die Recherche in riesigen Datenmengen in einer Vielzahl von Quellen, und schlägt ausformulierte Passagen vor, die der Autor überarbeiten und ergänzen kann.
Doch es geht noch mehr. Inzwischen liefert der Computer (mediengerecht "Robot Reporters" genannt) fertige Texte, die oftmals als Meldungen automatisch und ohne Korrekturbearbeitung in die Medien gesetzt werden [1].
Für gut ein Drittel seiner Artikel verwendet Bloomberg News das Computerprogramm Cyborg, spezialisiert auf die Auswertung von Finanzberichten und das Verfassen entsprechender Berichte. Auch Hedge Funds schicken automatisch erzeugte Finanzberichte an ihre Kunden.
Associated Press hat seit 2014 einen Vertrag mit Automated Insights [6][7], einer Firma spezialisiert auf die automatisierte Produktion von Artikeln aller Art. Statt wie bisher rund 300 Finanzberichte pro Quartal produziert Associated Press jetzt 3.700 Berichte pro Quartal.
Beispiel für eine computergenerierte Meldung von Associated Press:
TYSONS CORNER, Va. (AP) — MicroStrategy Inc. (MSTR) on Tuesday reported fourth-quarter net income of $3.3 million, after reporting a loss in the same period a year earlier.
Auch im Sport schreiben Robot Reporters Artikel: Baseball (Associated Press), Football (Washington Post). Für Erdbebenmeldungen ist die Los Angeles Times zuständig.
Die Washington Post benutzt das Programm Heliograf, um die Sport- oder Wahl-Berichterstattung zu unterstützen.
Associated Press, Bloomberg News, Washington Post benutzen Alerts, um bei bestimmten Datenkonstallationen benachrichtigt zu werden. Bei den Olympischen Spielen wurde eine Nachricht empfangen, wenn zum Beispiel ein Sportergebnis 10 Prozent über oder unter einem olympischen Weltrekord erzielt wurde, um dann darüber zu berichten.
Einen angenehmen Nebeneffekt der Computertexte hat Warren St. John, Chef der Lokalnachrichtenagentur Patch, wie folgt kommentiert: “One thing I’ve noticed, is that our A.I.-written articles have zero typos.” (Keine Rechtschreibfehler).
Die Entwicklung immer "intelligenterer" autonomer Textgeneratoren wird heute von der Non-Profit-Organisation OpenAI [9] vorangetrieben. OpenAI wurde im Jahr 2015 gegründet (unter anderen von Elon Musk) zur Förderung und Entwicklung von "friendly AI", die der Öffentlichkeit unentgeltlich zur Verfügung gestellt wird. Elon Musk und Sam Altman gehören zu den Mahnern vor missbräuchlicher Anwendung künstlicher Intelligenz, also auch der Erzeugnisse von OpenAI. Entsprechende Einschränkungen wurden gemacht, davon mehr weiter unten. Das Hauptquartier der OpenAI -Organisation befindet sich in San Francisco in einem Gebäude, das auch von der Firma Neuralink genutzt wird (dazu die Beobachtung "Human Enhancement").
GPT-2 ist ein Sprachmodell, basierend auf einem künstlichen neuronalen Netzwerk, dessen 1,5 Milliarden Parameter darauf trainiert wurden, Texte zu ergänzen. "GPT-2 is a large transformer-based language model with 1.5 billion parameters, trained on a dataset of 8 million web pages. GPT-2 is trained with a simple objective: predict the next word, given all of the previous words within some text." [4].
OpenAI stellt auf seiner Website mehrere Beispiele von Texten vor, die GPT-2 erzeugt hat. Unter Vorgabe eines kurzen "human-written" Textes, dem SYSTEM PROMPT, erfindet das System eine länger angelegte Meldung bzw. Kurzgeschichte als "machine-written" MODEL COMPLETION.
Hier eins von 7 Beispielen, die auf der OpenAI Website abrufbar sind [11] (Die Geschichte von den Einhörnern):
SYSTEM PROMPT (human-written):
In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English.
MODEL COMPLETION (machine-written):
The scientist named the population, after their distinctive horn, Ovid’s Unicorn. These four-horned, silver-white unicorns were previously unknown to science.
Now, after almost two centuries, the mystery of what sparked this odd phenomenon is finally solved.
Dr. Jorge Pérez, an evolutionary biologist from the University of La Paz, and several companions, were exploring the Andes Mountains when they found a small valley, with no other animals or humans. Pérez noticed that the valley had what appeared to be a natural fountain, surrounded by two peaks of rock and silver snow.
Pérez and the others then ventured further into the valley. “By the time we reached the top of one peak, the water looked blue, with some crystals on top,” said Pérez.
Pérez and his friends were astonished to see the unicorn herd. These creatures could be seen from the air without having to move too much to see them – they were so close they could touch their horns.
While examining these bizarre creatures the scientists discovered that the creatures also spoke some fairly regular English. Pérez stated, “We can see, for example, that they have a common ‘language,’ something like a dialect or dialectic.”
Dr. Pérez believes that the unicorns may have originated in Argentina, where the animals were believed to be descendants of a lost race of people who lived there before the arrival of humans in those parts of South America.
While their origins are still unclear, some believe that perhaps the creatures were created when a human and a unicorn met each other in a time before human civilization. According to Pérez, “In South America, such incidents seem to be quite common.”
However, Pérez also pointed out that it is likely that the only way of knowing for sure if unicorns are indeed the descendants of a lost alien race is through DNA. “But they seem to be able to communicate in English quite well, which I believe is a sign of evolution, or at least a change in social organization,” said the scientist.
Diese kurze Meldung oder auch Geschichte ist frei erfunden und alleine vom Computer geschrieben. Eine erstaunliche Leistung, wenn man bedenkt, dass ein Dr. Pérez erfunden wurde und dass die Sprache absolut natürlich ist.
Ryan Lowe (PhD student, machine learning, McGill University) schreibt dazu [3]:
So I was pretty shocked when I read GPT-2’s story about English-speaking unicorns (if you haven’t read it, I highly recommend it). The story isn’t perfect, and has some wobbles in the middle, but on the whole it’s remarkably coherent. It actually sounds like a news article that a human could have written.
OpenAI erklärt zu den Leistungen von GPT-2, dass die Ergebnisse umso besser sind, je mehr die Vorgaben Themen ansprechen, die im System bekannt sind, aktuell "Brexit", "Miley Cyrus", "Lord of the Rings", und so fort. Je entfernter die Vorgaben sind, zum Beispiel spezielle technische oder auch esoterische Themen, umso schlechter fällt das Ergebnis aus. Es ist wie bei einer Prüfung: Fragen zu den Gebieten, die sich das System selbstständig erarbeitet hat, werden gut bis sehr gut beantwortet (gelernt ist gelernt).
OpenAI weist auf mögliche Einsatzgebiete von GPT-2 hin:
⁃ AI writing assistants (AI-gestütztes Schreiben)
⁃ More capable dialogue agents (Verbesserte Dialogprogramme, z.B. für Interviews)
⁃ Unsupervised translation between languages (Autonome Übersetzungen)
⁃ Better speech recognition systems (Verbesserte Spracherkennungssysteme)
Aber auch auf den möglichen Missbrauch:
⁃ Generate misleading news articles (Erzeugen falscher Nachrichten)
⁃ Impersonate others online (Imitieren Anderer im Netz)
⁃ Automate the production of abusive or faked content to post on social media (Automatisierte Produktion missbräuchlichen oder falschen Inhalts in den sozialen Medien)
⁃ Automate the production of spam/phishing content (Automatisierte Produktion von Spam- oder Phishing-Inhalten)
Gerade die schier unbegrenzten Möglichkeiten des Missbrauchs zur vollautomatische Erzeugung von massenweisen Falschmeldungen und der ebenso automatisierten Durchführung von online-Kampagnen haben OpenAI dazu gebracht, GPT-2 nicht wie geplant in vollem Umfang zur Verfügung zu stellen. "Due to concerns about large language models being used to generate deceptive, biased, or abusive language at scale, we are only releasing a much smaller version of GPT-2 along with sampling code. We are not releasing the dataset, training code, or GPT-2 model weights" [4].
Die "kleine" Ausgabe von GPT-2 wird im Entwicklerportal GitHub [12] in einzelnen Programmteilen angeboten.
OpenAI empfiehlt, alle Texte, die mit GPT-2 erzeugt werden, als "synthetisch" zu kennzeichnen.
Im Slate Star Codex (self-recommending) [5] fragt Janelle Shane (Forscherin Optik, Neuronale Netzwerke) GPT-2 nach seinen 10 Lieblingstieren mit diesem PROMPT: "My 10 favorite animals are: 1."
Antwort:
My ten favorite animals are:
1. Zebras with a white scar on the back
2. Insiduous spiders and octopus
3. Frog with large leaves, hopefully black
4. Cockatiel with scales
5. Razorbill with wings hanging about 4 inches from one’s face and a heart tattoo on a frog
3. Cockatric interlocking tetrabods that can be blind, cut, and eaten raw:
4. Black and white desert crocodiles living in sunlight
5. Zebra and many other pea bugs
Hier fällt auf, dass nicht 10, sondern nur 8 "Tiere" genannt werden. Außerdem ist die Nummerierung fehlerhaft. Es ist tatsächlich so, dass GPT-2 nicht zählen kann, weil sein immenses neuronales Netzwerk darauf nicht trainiert ist. Janelle vergleicht die mathematischen Fähigkeit von GPT-2 mit denen eines 2 Jahre alten Kindes in ihrer Nachbarschaft.
Die Übersetzungsfähigkeiten sind ebenfalls beschränkt, was nicht verwundert, denn GPT-2 hat keinerlei "Ausbildung" als Übersetzer. Dennoch präsentiert das System selbstkonstruierte Beispiele für Englisch-Französisch-Übersetzungen:
Um die Fähigkeit des Dichtens zu testen, gab Janelle Alexander Popes "Essay on Criticism" [13] vor. Das Ergebnis:
O man, who pains the tongue magnified by tymolle,
Though all the fair melodies let no door go as dark as good art.
Yet it would have been, unless the mastermind is so full
Of his own want that this literary country might grow.
Perfect student, thou hast trodden out.
Happy students ruin the purity of what you write ‘Tis art,
For unordered use of decade,’ but art only failing:
A surprise, for new veins which build behind;
Dazu merkt Janelle an: "Das System weiß, wo es Umbrüche setzen soll und kennt die ungefähre Länge einer Zeile gemäß der jambischen Fünfheber-(iambic pentameter)-Syntax, und es kann sich ausdrücken wie ein Dandy im 18. Jahrhundert, aber es kann nicht Reimen oder die Metrik einhalten. Eigentlich nicht verwunderlich. GPT-2 hat keine Ahnung davon, dass Worte nach etwas klingen. Es wäre schockiert zu erfahren, dass Sprache auch zu etwas anderem benutzt wird als nur als Zeichenkette zu existieren.
Noch eine Bemerkung von Scott Anderson (in [5]):
GPT-2-like processes are closer to the sorts of things we do than we would like to think.
Why do I believe this? Because GPT-2 works more or less the same way the brain does, the brain learns all sorts of things without anybody telling it to, so we shouldn’t be surprised to see GPT-2 has learned all sorts of things without anybody telling it to – and we should expect a version with more brain-level resources to produce more brain-level results. Prediction is the golden key that opens any lock; whatever it can learn from the data being thrown at it, it will learn, limited by its computational resources and its sense-organs and so on but not by any inherent task-specificity.
Aber es gibt auch diese Meinung [2]:
„Allgemein ist Deep Learning noch viel zu datenhungrig. Im Gegensatz zum Menschen braucht es einfach Millionen und Abermillionen von Beispielen, um lernen zu können. Der Mensch dagegen lernt anhand weniger Beispiele. Wir können denken und Schlussfolgerungen aus wenigen Beobachtungen ziehen."
Zur Produktion verschiedenartigster Beiträge, Essays, Meldungen usw. benutzen wir in der P-Domain das System ESTEBAN. Es schreibt phantasievoll, kenntnisreich und überaus ansprechend. Wahrscheinlich liegt das daran, dass es HI (Human Intelligence) benutzt.
Quellen:
[1] https://www.nytimes.com/2019/02/05/business/media/artificial-intelligence-journalism-robots.html
[2] https://www.faz.net/aktuell/feuilleton/debatten/open-ai-warnt-vor-der-eigenen-entwicklung-gpt-2-16047940.html
[3] https://towardsdatascience.com/openais-gpt-2-the-model-the-hype-and-the-controversy-1109f4bfd5e8
[4] https://blog.openai.com/better-language-models/
[5] https://slatestarcodex.com/2019/02/19/gpt-2-as-step-toward-general-intelligence/
[6] https://en.wikipedia.org/wiki/Automated_Insights
[7] https://automatedinsights.com/wordsmith/
[8] https://de.wikipedia.org/wiki/Künstliches_neuronales_Netz
[9] https://en.wikipedia.org/wiki/OpenAI
[10] https://entwickler.de/online/machine-learning/openai-language-model-gpt-2-579881547.html
[11] https://openai.com/blog/better-language-models/#sample1
[12] https://github.com/openai/gpt-2/
[13] https://en.wikipedia.org/wiki/An_Essay_on_Criticism
https://www.bbc.com/news/technology-49446729
https://www.nytimes.com/2019/07/22/technology/open-ai-microsoft.html
Begriffe:
ML Machine Learning
AI Artificial Intelligence
HI Human Intelligence
NLP Natural Language Processing
NLG Natural Language Generation
Deep Mind (https://deepmind.com) u.a. AlphaGo und Wave Net
GPT-2: Large-Scale Unsupervised Language Model
Nachtrag 12.8.2020
OpenAI hat jetzt die neue Version GPT-3 seines Sprachmodells vorgestellt und einigen hundert Softwareentwicklern zur Verfügung gestellt. Diese veröffentlichten schon diverse Beispiele für die neuen sehr nützlichen Fähigkeiten etwa beim Verfassen von Emails und bei der Herstellung von Programmcode.
Sharif Shameem demonstrierte, wie GPT-3 aus einigen Worten HTML-Code erzeugt. Zum Beispiel aus "Gib mir einen Tastknopf, der wie eine Wassermelone aussieht", was zu diesem Ergebnis führt:
Oder "Eine Tabelle der reichsten Länder mitsamt ihrem GDP (Bruttosozialprodukt" ergibt:
In der Zukunft wird man also Programme beschreibend vorgeben und GPT-3 den Code erzeugen lassen. Das erspart die Zeit und Mühe, Programmierregeln und Syntax genau einhalten zu müssen. Außerdem können externe Informationen (wie im obigen Beispiel das Bruttosozialprodukt (GDP)), soweit für die Aufgabe relevant, hinzugefügt werden. Die Auswahl und Rekrutierung der Information, in der Regel aus dem internet, übernimmt GPT-3 selbsttätig.
Die Formulierung von Texten wurde weiter verbessert und kann hervorragend dafür genutzt werden, Emails zu beantworten. Man gibt nur einige wesentliche Punkte der Antwort vor und GPT-3 schreibt die Antwort-Email in ausführlichen und höflichem Text.
Das sieht dann so aus:
Und hier das von GPT-3 erzeugte Antwortschreiben:
Weiter geht es mit den Story-Telling-Fähigkeiten. Ein paar Stichworte genügen, um GPT-3 zu einem witzigen Interview mit Obama zu veranlassen. Die Vorgabe ist:
"An interview where Barack Obama explained why he was banned from Golden Corral for life.”
Das Ergebnis:
Obama: Yes. It’s true. I am no longer allowed in Golden Corral.
Interviewer: Is this because of your extensive shrimp-n-crab legs policy?
Obama: Absolutely.
Interviewer: What is your extensive shrimp-n-crab legs policy?
Obama: Oh, well, in brief, they were offering an all-you-can-eat shrimp-n-crab leg buffet, and I did not hesitate. After I ate so much shrimp and crab that my stomach hurt, I would quietly sneak in and throw more shrimp and crab onto my plate. I did this over and over again until I had cleaned out the buffet and was full of shrimp-n-crab.
Von Shrimps und Crabs war in der Vorgabe nicht die Rede, die wurden von GPT-3 erfunden. Hierfür hat es bei der amerikanischen Buffet-Kette recherchiert.
Wie alle Sprachmodelle lernt auch GPT-3 innerhalb eines vorgegebenen Kontexts. Dafür waren bisher riesige Mengen von Datensätzen notwendig. Inzwischen wurde die Zahl der Lernbeispiele drastisch reduziert, so dass GPT-3 ähnlich wie der Mensch aus nur wenigen Beispielen neue Aufgaben bewältigen kann.
Quellen:
https://www.nytimes.com/2020/07/29/opinion/gpt-3-ai-automation.html?action=click&module=Opinion&pgtype=Homepage
https://towardsdatascience.com/gpt-3-the-new-mighty-language-model-from-openai-a74ff35346fc