Seite 1 von 2

Google-Crawl: Von kurz nach lang...

Verfasst: 10.09.2004, 12:59
von Southmedia
Eine von mir betreute Seite hatte gestern das Vergnügen vom Googlebot mal wieder richtig durchgespidert zu werden, knapp 8000 Anfragen von einem Bot. Ich habe das nun heute mal genauer analysiert und die ganzen Nicht-Spider aus den Logs gelöscht.

Nun ist mir aufgefallen dass der Bot sich von "datei.htm" über "datei-mit-keyword.htm" zu "datei-mit-ganz-arg-vielen-keywords-drin.htm" durchgefressen hat - er hat mit den kurzen Dateinamen angefangen und ist dann zu den längeren übergegangen.

Es war ein Bot mit Kennung "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)", in dem Fall mit dem Hostname "crawl34.googlebot.com".
Zwischendrin sind noch Anfragen vom "richtigen" Googlebot ("Googlebot/2.1 (+https://www.google.com/bot.html)", crawlerXX.googlebot.com), der hielt sich nicht an diese kurz -> lang - Schema.

Könnt ihr mal in eure Logfiles schauen ob ihr ähnliches beobachten könnt? Wenn ja, könnte man daraus ja evtl einiges schliessen.

Verfasst:
von

Verfasst: 10.09.2004, 13:10
von AMM
...mal gucken gehen in die Tiefen der Logs....
Aber was mir persönlich bei uns aufgefallen ist,dass die lieben Bots plötzlich massenhaft Seiten auf einen Schlag verputzen,statt wie sonst üblich oder eher gewohnt Häppchenweise...

Verfasst: 10.09.2004, 13:16
von AMM
...Sodele...
Gerad ma ein wenig geguckt,aber es stimmt...gleiches Schema auch bei uns und die Domain hat sehr viele Seiten...

Verfasst: 10.09.2004, 13:16
von mark
moin
vom

Code: Alles auswählen

crawl34.googlebot.com - - [09/Sep/2004:06:17:21 +0200] "GET / HTTP/1.1" 200 14123 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
hatte ich nur ganze drei Zugriffe.

Dafür vom

Code: Alles auswählen

64.68.81.195 - - [09/Sep/2004:16:42:46 +0200] "GET /ALTEDATEIEN DIE ES NICHT MEHR GIBT/ HTTP/1.1" 301 313 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "www.DOMAIN DIE JETZT WEITERLEITET.de"
einige tausend am Stück mit immer derselben IP.

Verfasst: 10.09.2004, 13:36
von Southmedia
Danke AMM, dann bin ich da wohl nicht der einzige. Ziemlich seltsame Sache das. Sieht aus wie ein Komplettcrawl bei dem einfach (fast) alle Seiten der Domain die im Index sind durchgecrawlt werden.
Der "richtige Googlebot" dagegen kuckt sich Seiten an die er irgendwo aufgegabelt hat und in den Queue genommen hat und geht dann einfach bissel in die Seite rein.

mark, die Frage ist ob er auch von kurzen zu langen Dateinamen gegangen ist.

Verfasst: 10.09.2004, 13:52
von mark

bei mir nicht. bzw handelte es sich um einen alten ODP Klon, da gibts dann auch keine Dateinamen, sondern nur Verzeichnisse. Und da wiederum war es ihm wohl egal.
Auffällig war eben nur, daß sich nur ein Bot, bzw. auch noch crawl9.googlebot.com sich die Seiten am Stück gezogen haben.
Aber wahrscheinlich hat das mit Deiner Beobachtung nicht so viel gemein.
:)

Verfasst: 10.09.2004, 14:35
von Southmedia
Naja, im Endeffekt doch. Der Bot mit der "neuen" Kennung scheint sich definitiv anders zu verhalten wie der alte Bot.

Verfasst: 10.09.2004, 15:25
von moep123
also meine seite wird seid heute mittag 13uhr komplett gespidert. konnte dabei aber bis jetzt kein kurz-lang schema erkennen.

aber mal ne andere frage: könnte es sein das da evtl. ein PR-update ins haus steht? :o

siehe auch: https://www.abakus-internet-marketing.d ... -7544.html

mfg
moep123

Verfasst: 10.09.2004, 17:06
von fo
genau diese sache konnte ich bei 2 domains gestern auch beobachten! schön, dass es anderen auch so geht. er hat auch mehrere tausend seiten gecrawlt. erst kurze dateinamen bis hin zu längeren. UND: ich konnte beobachten das seiten tw. doppelt gespidert wurden!! in anderen foren habe ich entdeckt, dass die leute einen cloacking-checkbot dahinter vermuten.
nur gut, dass ich diesen bot in meiner ip/useragent liste stehen hatte :D

Verfasst: 10.09.2004, 20:58
von tron
cloacking-checkbot
nicht nur dafür.. generell dwps denke ich mal.
abwarten was kommt :D

Verfasst: 10.09.2004, 22:50
von fo
hm, wenn er nach dwps sucht... mal abwarten ob meine domains die nächsten paar tage überleben :-?

Verfasst: 10.09.2004, 23:01
von fkubis
moin!

wäre es von google nicht ziemlich bescheuert bei einem "cloaking-checkbot" "google" im UA und im hostnamen zu erwähnen?

Könnte höchstens ein test sein und die Kennung wird später weggelassen...

Ich frag mich ja schon länger warum Google alles seine bots so leicht erkennbar macht. Hat da jemand eine Erklärung?

Cu,
der Flo

Verfasst: 10.09.2004, 23:21
von AMM
Nach Doorways sucht dat Teil mit Sicherheit net...
...oder unsere sind zu gut für ihn... 8)

Verfasst: 11.09.2004, 00:32
von Luise
Bei mir war "crawl34.googlebot.com" auch, was mich allerdings verwundert hat, war die Browserkennung "NS 6.0" und die Dauer, die er pro Seite gebraucht hat. Als ich das ein bissel mitverfolgte, waren das ca. 2 Minuten. Der andere Bot huscht doch eigentlich immer viel schneller durch.

Verfasst: 11.09.2004, 00:58
von Southmedia
Luise, könntest du Ausschnitte aus dem Logfile posten bitte? Danke.