Googlebot

Googlebot nennt sich der Webcrawler, den Google einsetzt
Über einen sogenannten Webcrawler, ein kleines Programm, das Webseiten durchforstet, werden Internetseiten besucht und deren Inhalt gelesen. Der Webcrawler den Google einsetzt nennt sich Googlebot. Wer Zugriff auf die Logs seines Server hat, der wird diesen Namen schon häufig gelesen haben.

Die Häufigkeit der Besuche hängt von verschiedenen Faktoren ab. Dazu gehört auch die Frequenz, mit der die Webseite mit neuen Inhalten gefüllt wird. Je häufiger sich die Webseite verändert, desto häufiger bekommt man auch Besuch vom Googlebot und anderen Webcrawlern.

Über eine Textdatei namens robots.txt kann der Googlebot in seiner Arbeitsweise beeinflusst werden. Leider wird die Datei nicht von jedem Webcrawler beachtet, was hin und wieder ein komplettes Aussperren bestimmter Crawler erforderlich macht.

Google nutzt verschiedene Crawler, die unterschiedliche Aufgaben erfüllen:

  • Googlebot/2.1 (+http://www.google.com/bot.html)
  • Der Standard-Bot den sicher jeder kennt und schon irgendwo in seinen Logs gesehen hat. Diesen findet man am häufigsten auch in den Übersichten und Online-Listen in Foren.

  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Fast ebenso häufig wird auch dieser User-Agent in den Übersichten und Logs gefunden.

  • Googlebot-Image/1.0
  • Wie man sicher am Namen erkennen kann, werden hier in erster Linie Bilder gesucht, die dann in der Bildersuche von Google erscheinen.

  • Mediapartners-Google/2.1
  • Die Aufgabe dieses Bots liegt darin, Webseiten für Google AdSense zu durchsuchen und zu kategorisieren, damit passende Werbung geschaltet werden kann.