Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Google-Crawl: Von kurz nach lang...

Dieses Forum ist für Informationen über Google gedacht (Ausser PageRank!).
Southmedia
PostRank 10
PostRank 10
Beiträge: 7322
Registriert: 20.07.2003, 19:56

Beitrag von Southmedia » 10.09.2004, 12:59

Eine von mir betreute Seite hatte gestern das Vergnügen vom Googlebot mal wieder richtig durchgespidert zu werden, knapp 8000 Anfragen von einem Bot. Ich habe das nun heute mal genauer analysiert und die ganzen Nicht-Spider aus den Logs gelöscht.

Nun ist mir aufgefallen dass der Bot sich von "datei.htm" über "datei-mit-keyword.htm" zu "datei-mit-ganz-arg-vielen-keywords-drin.htm" durchgefressen hat - er hat mit den kurzen Dateinamen angefangen und ist dann zu den längeren übergegangen.

Es war ein Bot mit Kennung "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)", in dem Fall mit dem Hostname "crawl34.googlebot.com".
Zwischendrin sind noch Anfragen vom "richtigen" Googlebot ("Googlebot/2.1 (+https://www.google.com/bot.html)", crawlerXX.googlebot.com), der hielt sich nicht an diese kurz -> lang - Schema.

Könnt ihr mal in eure Logfiles schauen ob ihr ähnliches beobachten könnt? Wenn ja, könnte man daraus ja evtl einiges schliessen.

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


AMM
PostRank 4
PostRank 4
Beiträge: 116
Registriert: 02.07.2004, 11:49
Wohnort: Bürogebäude,3.Stock rechts,Flur entlang bis ganz hinten,letztes Büro mit der besten Aussicht :-)

Beitrag von AMM » 10.09.2004, 13:10

...mal gucken gehen in die Tiefen der Logs....
Aber was mir persönlich bei uns aufgefallen ist,dass die lieben Bots plötzlich massenhaft Seiten auf einen Schlag verputzen,statt wie sonst üblich oder eher gewohnt Häppchenweise...

AMM
PostRank 4
PostRank 4
Beiträge: 116
Registriert: 02.07.2004, 11:49
Wohnort: Bürogebäude,3.Stock rechts,Flur entlang bis ganz hinten,letztes Büro mit der besten Aussicht :-)

Beitrag von AMM » 10.09.2004, 13:16

...Sodele...
Gerad ma ein wenig geguckt,aber es stimmt...gleiches Schema auch bei uns und die Domain hat sehr viele Seiten...

mark
PostRank 9
PostRank 9
Beiträge: 1052
Registriert: 21.05.2003, 11:37

Beitrag von mark » 10.09.2004, 13:16

moin
vom

Code: Alles auswählen

crawl34.googlebot.com - - [09/Sep/2004:06:17:21 +0200] "GET / HTTP/1.1" 200 14123 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
hatte ich nur ganze drei Zugriffe.

Dafür vom

Code: Alles auswählen

64.68.81.195 - - [09/Sep/2004:16:42:46 +0200] "GET /ALTEDATEIEN DIE ES NICHT MEHR GIBT/ HTTP/1.1" 301 313 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "www.DOMAIN DIE JETZT WEITERLEITET.de"
einige tausend am Stück mit immer derselben IP.
Bild

Southmedia
PostRank 10
PostRank 10
Beiträge: 7322
Registriert: 20.07.2003, 19:56

Beitrag von Southmedia » 10.09.2004, 13:36

Danke AMM, dann bin ich da wohl nicht der einzige. Ziemlich seltsame Sache das. Sieht aus wie ein Komplettcrawl bei dem einfach (fast) alle Seiten der Domain die im Index sind durchgecrawlt werden.
Der "richtige Googlebot" dagegen kuckt sich Seiten an die er irgendwo aufgegabelt hat und in den Queue genommen hat und geht dann einfach bissel in die Seite rein.

mark, die Frage ist ob er auch von kurzen zu langen Dateinamen gegangen ist.

mark
PostRank 9
PostRank 9
Beiträge: 1052
Registriert: 21.05.2003, 11:37

Beitrag von mark » 10.09.2004, 13:52


bei mir nicht. bzw handelte es sich um einen alten ODP Klon, da gibts dann auch keine Dateinamen, sondern nur Verzeichnisse. Und da wiederum war es ihm wohl egal.
Auffällig war eben nur, daß sich nur ein Bot, bzw. auch noch crawl9.googlebot.com sich die Seiten am Stück gezogen haben.
Aber wahrscheinlich hat das mit Deiner Beobachtung nicht so viel gemein.
:)
Bild

Southmedia
PostRank 10
PostRank 10
Beiträge: 7322
Registriert: 20.07.2003, 19:56

Beitrag von Southmedia » 10.09.2004, 14:35

Naja, im Endeffekt doch. Der Bot mit der "neuen" Kennung scheint sich definitiv anders zu verhalten wie der alte Bot.

moep123
PostRank 3
PostRank 3
Beiträge: 83
Registriert: 14.06.2004, 12:10
Wohnort: Reutlingen

Beitrag von moep123 » 10.09.2004, 15:25

also meine seite wird seid heute mittag 13uhr komplett gespidert. konnte dabei aber bis jetzt kein kurz-lang schema erkennen.

aber mal ne andere frage: könnte es sein das da evtl. ein PR-update ins haus steht? :o

siehe auch: https://www.abakus-internet-marketing.d ... -7544.html

mfg
moep123

fo
PostRank 6
PostRank 6
Beiträge: 360
Registriert: 15.05.2004, 14:20

Beitrag von fo » 10.09.2004, 17:06

genau diese sache konnte ich bei 2 domains gestern auch beobachten! schön, dass es anderen auch so geht. er hat auch mehrere tausend seiten gecrawlt. erst kurze dateinamen bis hin zu längeren. UND: ich konnte beobachten das seiten tw. doppelt gespidert wurden!! in anderen foren habe ich entdeckt, dass die leute einen cloacking-checkbot dahinter vermuten.
nur gut, dass ich diesen bot in meiner ip/useragent liste stehen hatte :D

tron
PostRank 8
PostRank 8
Beiträge: 862
Registriert: 16.09.2003, 13:56
Wohnort: HUHU

Beitrag von tron » 10.09.2004, 20:58

cloacking-checkbot
nicht nur dafür.. generell dwps denke ich mal.
abwarten was kommt :D

fo
PostRank 6
PostRank 6
Beiträge: 360
Registriert: 15.05.2004, 14:20

Beitrag von fo » 10.09.2004, 22:50

hm, wenn er nach dwps sucht... mal abwarten ob meine domains die nächsten paar tage überleben :-?

fkubis
PostRank 1
PostRank 1
Beiträge: 29
Registriert: 29.06.2004, 10:59
Wohnort: Bamberg

Beitrag von fkubis » 10.09.2004, 23:01

moin!

wäre es von google nicht ziemlich bescheuert bei einem "cloaking-checkbot" "google" im UA und im hostnamen zu erwähnen?

Könnte höchstens ein test sein und die Kennung wird später weggelassen...

Ich frag mich ja schon länger warum Google alles seine bots so leicht erkennbar macht. Hat da jemand eine Erklärung?

Cu,
der Flo

AMM
PostRank 4
PostRank 4
Beiträge: 116
Registriert: 02.07.2004, 11:49
Wohnort: Bürogebäude,3.Stock rechts,Flur entlang bis ganz hinten,letztes Büro mit der besten Aussicht :-)

Beitrag von AMM » 10.09.2004, 23:21

Nach Doorways sucht dat Teil mit Sicherheit net...
...oder unsere sind zu gut für ihn... 8)

Luise
PostRank 3
PostRank 3
Beiträge: 76
Registriert: 28.05.2004, 13:32

Beitrag von Luise » 11.09.2004, 00:32

Bei mir war "crawl34.googlebot.com" auch, was mich allerdings verwundert hat, war die Browserkennung "NS 6.0" und die Dauer, die er pro Seite gebraucht hat. Als ich das ein bissel mitverfolgte, waren das ca. 2 Minuten. Der andere Bot huscht doch eigentlich immer viel schneller durch.

Southmedia
PostRank 10
PostRank 10
Beiträge: 7322
Registriert: 20.07.2003, 19:56

Beitrag von Southmedia » 11.09.2004, 00:58

Luise, könntest du Ausschnitte aus dem Logfile posten bitte? Danke.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag