Paper Earth

15.2.2020

Wir leben in einer Welt, in der jeder, egal wo, das gesamte Wissen der Menschheit abrufen und auf seinem Telephon ansehen kann. Es gibt Regionen wie Russland, China, Nord Korea, Iran u.a., in denen der uneingeschränkte Internetzugang nicht möglich ist. Diese wollen wir bei unserer Betrachtung außer acht lassen.

Der Mensch zeigt seine Ideen, Vorstellungen, Produkte, Länder, Hobbys etc. auf ungefähr 1,34 Milliarden Website Installationen. Eine Website besteht in der Regel aus mehreren Seiten und einer "Homepage", der Startseite mit Verzweigungsmenues.

Websites mit dem gewünschten Inhalt zu finden ist nur mit Computerunterstützung möglich. Dazu sind die "Suchmaschinen" da. Das sind Programme, die gesuchte Begriffe oder Textfragmente auf einer oder mehreren Seiten einer der 1,34 Milliarden Websites bzw. auf mehreren Websites finden. Wenn man zum Beispiel nach "virtuelle Annerose" oder "Annerose virtuell" sucht, erscheint ganz oben in der Ergebnisliste die Website P-Domain, und zwar nach 0,28 Sekunden (mit Google Suche).

Wenn man die Inhalte einer Website kompakt mit Texten und Bildern auf DIN-A4 Papierseiten verteilt, erhält man für die unterschiedlichsten Websites jeweils auch ganz unterschiedliche Anzahlen von Seiten. Beim Aufsatz "Annerose virtuell" sind das 9 Seiten, siehe im Jahrbuch 2013. Der gesamte Inhalt der P-Domain würde nahezu eintausend Seiten beanspruchen.

Für die folgende Betrachtung nehmen wir trotzdem einen Durchschnitt von nur 10 Seiten pro Website an. Bei 1,34 Milliarden Websites sind das eben 13,4 Milliarden DIN-A4 Seiten. Diese Seiten, Kante an Kante nebeneinander gelegt, beanspruchen ein Fläche von 830,13 Quadratkilometern. Diese Fläche kann man in einem Quadrat mit der Kantenlänge von 28,81 km oder einem Kreis mit dem Durchmesser von 32,52 km unterbringen.

Hamburg bedeckt mit Internet

Die Hansestadt Hamburg nimmt eine Fläche von 755,1 qkm ein. Darin könnte Hamburg 1,22 Milliarden Websites aufnehmen. Wir machen jetzt folgendes Experiment: Wir drucken alle 12,2 Milliarden Webseiten aus*, fein säuberlich in kompaktem Layout mit Texten und Bildern, und bedecken ganz Hamburg mit diesen Seiten, so dass die Hansestadt vollständig mit dem kompletten Internet bedeckt ist.

Nun nehmen wir uns eine Suchmaschine und sagen zu ihr: "Such "Annerose virtuell" - los, such!". Die Aufgabe könnte schwieriger nicht sein. Zwölf Tausend Millionen Seiten muss die Maschine durchlesen und dabei die Texte minutiös vergleichen mit der Suchaufgabe. Wenn sie etwa so schnell ist wie der Mensch, also eine Seite in 10 Sekunden überfliegt, dann benötigt sie 3868 Jahre. Tatsächlich aber benötigt sie, wie oben schon erwähnt, 0,28 Sekunden.

Die Schnelligkeit und die Präzision von Suchmaschinen wie Google ist phänomenal. Die Grundlage ist die genaue Kenntnis des gesamten Internets. Crawler-Programme sind ständig dabei, sämtliche 13 Milliarden Webseiten zu lesen und zu indexieren. Mit einem Index-Verzeichnis kann man alle Seiten finden, die die Suchbegriffe enthalten, aber es findet keine Bewertung der Seiten nach ihrer Relevanz für den Suchenden statt.

Im Jahr 1999 veröffentlichten Sergey Brin and Lawrence Page (Computer Science Dept., Stanford University) ihren damals revolutionären Ansatz, Webseiten zu bewerten, in der Publikation "The Anatomy of a Large-Scale Hypertextual Web Search Engine" [1]. Sie führten den "Page Rank" ein, ein Verfahren, mit dem die Liste der Fundstellen nach einem Kriterium sortiert wurde, und zwar nach der Anzahl der Hyperlinks, die auf eine bestimmte Fundstelle (Webseite) zeigen. Dazu erstellten sie einen Citation (Link) Graph des Internets mit damals 518 Millionen Hyperlinks. Dieses Prinzip, nach dem die Relevanz einer Website danach bemessen wird, wie häufig sie von anderen Websites zitiert wird, ist heute in allen Suchmaschinen verankert. Darüber hinaus gibt es heute jedoch eine fast unüberschaubare Vielzahl weiterer Kriterien, die in ihrer Gesamtheit den Such-Algorithmus ausmachen.

Google Architektur 1999

Immer wieder wird gefordert, Google solle seine Suchalgorithmen veröffentlicht, um der Firma die Bevorzugung oder Benachteiligung bestimmter Websites oder Klassen von Websites vorwerfen zu können. Das Suchverfahren basiert jedoch auf tausenden von Regeln und spezialisierten Datenbanken, so dass eine nichtkomplexe Darstellung unmöglich ist. So gibt Google selbst eine Reihe von selbsterstellten Wissensquellen an, die bei einer Suche im Web mitbenutzt werden [2]. Ein Beispiel ist der "Knowledge Graph": < 2012 haben wir den Knowledge Graph eingeführt, eine Datenbank mit Angaben zu mehr als einer Milliarde Personen, Orte und Sachverhalte mit über 50 Milliarden Fakten und Verknüpfungen. Die Welt besteht aus realen Dingen, nicht aus Textbausteinen. Daher zeigen wir im Knowledge Graph die jeweiligen Verbindungen >. Ein weiterer Schwerpunkt ist das "Verstehen" der Suchanfrage im Kontext des Fragestellers, d.h. länderspezifische und begriffsspezifische Gegebenheiten sowie die Anfragenhistorie werden ausgewertet, um das Suchergebnis zu verbessern.

Das gesamte Wissen der Menschheit ist im Internet niedergelegt und verändert sich täglich. Nur mit Hilfe sehr komplexer und extrem leistungsfähiger Suchmaschinen (Search Engines) sind wir heute in der Lage, jeden noch so kleinen Wissensbaustein in "nullkommanix" zu finden.

Betrachten wir also Hamburg. Genau besehen ist von Hamburg nichts zu sehen, da die Stadt mit dem Internet zugedeckt ist. Wir haben bei der Aktion die 9 Annerose-Seiten im Hafen auf dem Gelände der Shell Deutschland GmbH Grasbrook zwischen zwei Öltanks gelegt (mit vielen anderen Seiten). Unser Testobjekt wurde somit sprichwörtlich zur berühmten Stecknadel in einem riesigen Heuhaufen. Dann sprachen wir zu Google: "Such "Annerose virtuell" - los, such!". Die Suchmaschine, die ja eher eine Engine als eine Maschine ist, legte los und durchsuchte das gesamte Gebiet der Hansestadt Hamburg. Dann ging alles sehr schnell. Wir waren vor Ort, als wir den Suchbefehl eintippten. Kaum war <Return> abgeschickt, stand die Maschine vor uns und hielt uns mit ihren 5 Armen die 9 Seiten vor die Nase. Nicht zu glauben, aber wahr.

Natürlich hatte es Google mit den Papierseiten einfacher als sonst. Normalerweise muss Google erst mal den Provider finden, auf dessen Server die Annerose-Seiten gespeichert sind. Dann muss sie die Adresse dem Browser übergeben, der die Seiten holt und anzeigt.


* Mit einer Druckerpatrone pro 100 Seiten werden insgesamt 122 Millionen Patronen benötigt zu einem Gesamtpreis von 1,46 Milliarden Euro (bei stark rabattiertem Preis von nur 12 Euro pro (Farb)Patrone).


Quellen:

[1] http://infolab.stanford.edu/~backrub/google.html
[2] https://www.google.com/intl/de/search/howsearchworks/algorithms/
https://t3n.de/news/google-suchalgorithmus-1179093/
https://www.ceramex-media.de/google-suchalgorithmus/
https://www.internetlivestats.com/total-number-of-websites/
https://techjury.net/blog/how-many-websites-are-there/#gref