ABAKUS

Verfasst: **10.09.2004, 12:59**

Eine von mir betreute Seite hatte gestern das Vergnügen vom Googlebot mal wieder richtig durchgespidert zu werden, knapp 8000 Anfragen von einem Bot. Ich habe das nun heute mal genauer analysiert und die ganzen Nicht-Spider aus den Logs gelöscht.

Nun ist mir aufgefallen dass der Bot sich von "datei.htm" über "datei-mit-keyword.htm" zu "datei-mit-ganz-arg-vielen-keywords-drin.htm" durchgefressen hat - er hat mit den kurzen Dateinamen angefangen und ist dann zu den längeren übergegangen.

Es war ein Bot mit Kennung "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)", in dem Fall mit dem Hostname "crawl34.googlebot.com".
Zwischendrin sind noch Anfragen vom "richtigen" Googlebot ("Googlebot/2.1 (+https://www.google.com/bot.html)", crawlerXX.googlebot.com), der hielt sich nicht an diese kurz -> lang - Schema.

Könnt ihr mal in eure Logfiles schauen ob ihr ähnliches beobachten könnt? Wenn ja, könnte man daraus ja evtl einiges schliessen.

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002

persönliche Betreuung
individuelle Beratung
kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.

Verfasst: **10.09.2004, 13:10**

...mal gucken gehen in die Tiefen der Logs....
Aber was mir persönlich bei uns aufgefallen ist,dass die lieben Bots plötzlich massenhaft Seiten auf einen Schlag verputzen,statt wie sonst üblich oder eher gewohnt Häppchenweise...

Verfasst: **10.09.2004, 13:16**

...Sodele...
Gerad ma ein wenig geguckt,aber es stimmt...gleiches Schema auch bei uns und die Domain hat sehr viele Seiten...

Verfasst: **10.09.2004, 13:16**

moin
vom

Code: Alles auswählen

crawl34.googlebot.com - - &#91;09/Sep/2004&#58;06&#58;17&#58;21 +0200&#93; "GET / HTTP/1.1" 200 14123 "-" "Mozilla/5.0 &#40;compatible; Googlebot/2.1; +http&#58;//www.google.com/bot.html&#41;"

hatte ich nur ganze drei Zugriffe.

Dafür vom

Code: Alles auswählen

64.68.81.195 - - &#91;09/Sep/2004&#58;16&#58;42&#58;46 +0200&#93; "GET /ALTEDATEIEN DIE ES NICHT MEHR GIBT/ HTTP/1.1" 301 313 "-" "Mozilla/5.0 &#40;compatible; Googlebot/2.1; +http&#58;//www.google.com/bot.html&#41;" "www.DOMAIN DIE JETZT WEITERLEITET.de"

einige tausend am Stück mit immer derselben IP.

Verfasst: **10.09.2004, 13:36**

Danke AMM, dann bin ich da wohl nicht der einzige. Ziemlich seltsame Sache das. Sieht aus wie ein Komplettcrawl bei dem einfach (fast) alle Seiten der Domain die im Index sind durchgecrawlt werden.
Der "richtige Googlebot" dagegen kuckt sich Seiten an die er irgendwo aufgegabelt hat und in den Queue genommen hat und geht dann einfach bissel in die Seite rein.

mark, die Frage ist ob er auch von kurzen zu langen Dateinamen gegangen ist.

Verfasst: **10.09.2004, 13:52**

Nö
bei mir nicht. bzw handelte es sich um einen alten ODP Klon, da gibts dann auch keine Dateinamen, sondern nur Verzeichnisse. Und da wiederum war es ihm wohl egal.
Auffällig war eben nur, daß sich nur ein Bot, bzw. auch noch crawl9.googlebot.com sich die Seiten am Stück gezogen haben.
Aber wahrscheinlich hat das mit Deiner Beobachtung nicht so viel gemein.

Verfasst: **10.09.2004, 14:35**

Naja, im Endeffekt doch. Der Bot mit der "neuen" Kennung scheint sich definitiv anders zu verhalten wie der alte Bot.

Verfasst: **10.09.2004, 15:25**

also meine seite wird seid heute mittag 13uhr komplett gespidert. konnte dabei aber bis jetzt kein kurz-lang schema erkennen.

aber mal ne andere frage: könnte es sein das da evtl. ein PR-update ins haus steht?

siehe auch: https://www.abakus-internet-marketing.d ... -7544.html

mfg
moep123

Verfasst: **10.09.2004, 17:06**

genau diese sache konnte ich bei 2 domains gestern auch beobachten! schön, dass es anderen auch so geht. er hat auch mehrere tausend seiten gecrawlt. erst kurze dateinamen bis hin zu längeren. UND: ich konnte beobachten das seiten tw. doppelt gespidert wurden!! in anderen foren habe ich entdeckt, dass die leute einen cloacking-checkbot dahinter vermuten.
nur gut, dass ich diesen bot in meiner ip/useragent liste stehen hatte

Verfasst: **10.09.2004, 20:58**

cloacking-checkbot

nicht nur dafür.. generell dwps denke ich mal.
abwarten was kommt

Verfasst: **10.09.2004, 22:50**

hm, wenn er nach dwps sucht... mal abwarten ob meine domains die nächsten paar tage überleben

Verfasst: **10.09.2004, 23:01**

moin!

wäre es von google nicht ziemlich bescheuert bei einem "cloaking-checkbot" "google" im UA und im hostnamen zu erwähnen?

Könnte höchstens ein test sein und die Kennung wird später weggelassen...

Ich frag mich ja schon länger warum Google alles seine bots so leicht erkennbar macht. Hat da jemand eine Erklärung?

Cu,
der Flo

Verfasst: **10.09.2004, 23:21**

Nach Doorways sucht dat Teil mit Sicherheit net...
...oder unsere sind zu gut für ihn...

Verfasst: **11.09.2004, 00:32**

Bei mir war "crawl34.googlebot.com" auch, was mich allerdings verwundert hat, war die Browserkennung "NS 6.0" und die Dauer, die er pro Seite gebraucht hat. Als ich das ein bissel mitverfolgte, waren das ca. 2 Minuten. Der andere Bot huscht doch eigentlich immer viel schneller durch.

Verfasst: **11.09.2004, 00:58**

Luise, könntest du Ausschnitte aus dem Logfile posten bitte? Danke.

ABAKUS

Google-Crawl: Von kurz nach lang...

Google-Crawl: Von kurz nach lang...