Google-Crawl: Von kurz nach lang...
Verfasst: 10.09.2004, 12:59
Eine von mir betreute Seite hatte gestern das Vergnügen vom Googlebot mal wieder richtig durchgespidert zu werden, knapp 8000 Anfragen von einem Bot. Ich habe das nun heute mal genauer analysiert und die ganzen Nicht-Spider aus den Logs gelöscht.
Nun ist mir aufgefallen dass der Bot sich von "datei.htm" über "datei-mit-keyword.htm" zu "datei-mit-ganz-arg-vielen-keywords-drin.htm" durchgefressen hat - er hat mit den kurzen Dateinamen angefangen und ist dann zu den längeren übergegangen.
Es war ein Bot mit Kennung "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)", in dem Fall mit dem Hostname "crawl34.googlebot.com".
Zwischendrin sind noch Anfragen vom "richtigen" Googlebot ("Googlebot/2.1 (+https://www.google.com/bot.html)", crawlerXX.googlebot.com), der hielt sich nicht an diese kurz -> lang - Schema.
Könnt ihr mal in eure Logfiles schauen ob ihr ähnliches beobachten könnt? Wenn ja, könnte man daraus ja evtl einiges schliessen.
Nun ist mir aufgefallen dass der Bot sich von "datei.htm" über "datei-mit-keyword.htm" zu "datei-mit-ganz-arg-vielen-keywords-drin.htm" durchgefressen hat - er hat mit den kurzen Dateinamen angefangen und ist dann zu den längeren übergegangen.
Es war ein Bot mit Kennung "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)", in dem Fall mit dem Hostname "crawl34.googlebot.com".
Zwischendrin sind noch Anfragen vom "richtigen" Googlebot ("Googlebot/2.1 (+https://www.google.com/bot.html)", crawlerXX.googlebot.com), der hielt sich nicht an diese kurz -> lang - Schema.
Könnt ihr mal in eure Logfiles schauen ob ihr ähnliches beobachten könnt? Wenn ja, könnte man daraus ja evtl einiges schliessen.