Seite 1 von 1

was kann der googlebot alles?

Verfasst: 26.08.2005, 14:43
von linux
Hallo alle zusammen,

durch massive googlebot besuche und sessionsumbaumaßnahmen sind mir paar sachen am bot aufgefallen.

1. anscheinend kann sich der bot verlaufen ohne daß es einen link zu einer seite gibt
beispiel index.php?page=1&id=xxx wird im link übergeben, damit der user auf die page auf der er war wieder zurückkommt. der bot nun nimmt index.php?page=10&id=xxx obwohl es bei der auswahl keine page 10 gibt, sprich er merkt sich das page und trägt einfach bei allen id die zahlen ein die er mal gefunden hat!!!!!!! ich meine ich bin dann der spammer oder wie

hab ihr das auch schon mal bemerkt?

2. session ids wir PHPSESSID oder sid gelanden in den index obwohl jedem klar ist daß das keine unterschiedliche seiten sind!!!

3. auch ohne verlaufen kommt der bot 1 mil mal in der we das find ich ziemlich viel


gruß

linux

Verfasst:
von

was kann der googlebot alles?

Verfasst: 26.08.2005, 15:09
von Malte Landwehr
2.1 ist bekannt (Stichwort modrewrite)

Zu 2.2 Was meinst du mit Verlauf? Wenn genug frischer Content und genügen eingehende Links da sind kommt der Bot auch täglich.

was kann der googlebot alles?

Verfasst: 26.08.2005, 15:32
von linux
naja täglich ist ok aber dann mal kurz 300.000 seiten mitnehmen ist schon bischen viel

zu modrewrite
hm ok er hat also immer noch probleme mit dem & und ich muß doch mod_rewite machen, denn eigendlich wollte ich &page nehmen um gogle zu zeigen die seiten sind aus der db

gruß

linux

Verfasst:
von

was kann der googlebot alles?

Verfasst: 26.08.2005, 15:40
von marc75
schalte die session ab wenn ein bot kommt und das mit dem page=id hab ich nicht bemerkt, hab auch noch eine Seite mit sowas, da hängt google keine ids alleine dran.

was kann der googlebot alles?

Verfasst: 26.08.2005, 16:02
von Sagem
Schau mal ob es überhaupt der googlebot ist. In meinen logfiles tauchen bots auf - mit der googlebot-Kennung - die jedoch mit google aber auch nix zu tun haben. Lässt sich anhand der IP bestens kontrollieren. Siehe nachfolgenden Eintrag im logfile.

69.64.49.243 - - [25/Aug/2005:06:31:59 +0200] "GET / HTTP/1.1" 200 21232 "-" "Googlebot/2.1 (+https://www.google.com/bot.html)"

Schönes Wochenende :)

was kann der googlebot alles?

Verfasst: 26.08.2005, 19:46
von ownz
Zu 3)

"kommt der bot 1 mil mal in der we "

Also wenn der Googlebot bei dir eine Millionen Mal kommt, dann ist es sicherlich nicht DER Googlebot ;)

Oder meintest du eher einmal am Weekend?

Grüße, ownz

was kann der googlebot alles?

Verfasst: 26.08.2005, 20:47
von linux
ownz
es waren bei sub und haupdomian ca 800.000 botbesuche von 22.-25 und war der echte googlebot, hab dafür ein logfile.

marc75
das hab ich eh aber ich brauchte ein tracking das über subbdomains geht, und da gingen nur session, die session wird aber nur gestartet wenn es kein googlebot,oder anderer bot ist. uaßder wird die session nur angehangen, wenn man subdomaisn wechselt.

ich habe alles überprüft bezüglich page=x denn ich dachte auch daß ein programmierer einen fehler gemacht hat, dem war aber nicht so.

und ich meine solche requests von google 66.249.66.165 - - [26/Aug/2005:08:42:45 +0200] "GET /reisen/ferienwohnungen/index_page34_dk_D%C3%83%C6%92%C3%86%E2%80%99%C3%83%E2%80%A0%C3%A2%E2%82%AC%E2%84
%A2%C3%83%C6%92%C3%A2%E2%82%AC%C2%A0%C3%83%C2%A2%C3%A2%E2%80%9A%C2%AC%C3%A2%E2%80%9E%C2%A2%C3%83%C6%92%C3%86%E2%80%99%C3%83%C2%A2%C3%A2%E2%80%9A%C2%AC%C3%82
%C2%A0%C3%83%C6%92%C3%82%C2%A2%C3%83%C2%A2%C3%A2%E2%82%AC%C5%A1%C3%82%C2%AC%C3%83%C2%A2%C3%A2%E2%82%AC%C5%BE%C3%82%C2%A2%C3%83%C6%92%C3%86%E2%80%99%C3%83%E2
%80%A0%C3%A2%E2%82%AC%E2%84%A2%C3%83%C6%92%C3%82%C2%A2%C3%83%C2%A2%C3%A2%E2%82%AC%C5%A1%C3%82%C2%AC%C3%83%E2%80%9A%C3%82%C2%A0%C3%83%C6%92%C3%86%E2%80%99%C3
%83%E2%80%9A%C3%82%C2%A2%C3%83%C6%92%C3%82%C2%A2%C3%83%C2%A2%C3%A2%E2%80%9A%C2%AC%C3%85%C2%A1%C3%83%E2%80%9A%C3%82%C2%AC%C3%83%C6%92%C3%82%C2%A2%C3%83%C2%A2
%C3%A2%E2%80%9A%C2%AC%C3%85%C2%BE%C3%83%E2%80%9A%C3%82%C2%A2%C3%83%C6%92%C3%86%E2%80%99%C3%83%E2%80%A0%C3%A2%E2%82%AC%E2%84%A2%C3%83%C6%92%C3%A2%E2%82%AC%C2
%A0%C3%83%C2%A2%C3%A2%E2%80%9A%C2%AC%C3%A2%E2%80%9E%C2%A2%C3%83%C6%92%C3%86%E2%80%99%C3%83%E2%80%9A%C3%82%C2%A2%C3%83%C6%92%C3%82%C2%A2%C3%83%C2%A2%C3%A2%E2
%80%9A%C2%AC%C3%85%C2%A1%C3%83%E2%80%9A%C3%82%C2%AC%C3%83%C6%92%C3%A2%E2%82%AC%C2%A6%C3%83%E2%80%9A%C3%82%C2%A1%C3%83%C6%92%C3%86%E2%80%99%C3%83%E2%80%A0%C3
%A2%E2%82%AC%E2%84%A2%C3%83%C6%92%C3%82%C2%A2%C3%83%C2%A2%C3%A2%E2%82%AC%C5%A1%C3%82%C2%AC%C3%83%E2%80%A6%C3%82%C2%A1%C3%83%C6%92%C3%86%E2%80%99%C3%83%C2%A2
%C3%A2%E2%80%9A%C2%AC%C3%85%C2%A1%C3%83%C6%92%C3%A2%E2%82%AC%C5%A1%C3%83%E2%80%9A%C3%82%C2%A4nemark.html HTTP/1.1" 403 922 "-" "Mozilla/5.0 (compatible; Goo
glebot/2.1; +https://www.google.com/bot.html)"


es solll wohl dänemark heißen



gruß


linux

was kann der googlebot alles?

Verfasst: 26.08.2005, 21:44
von whobee
Schau mal ob es überhaupt der googlebot ist. In meinen logfiles tauchen bots auf - mit der googlebot-Kennung - die jedoch mit google aber auch nix zu tun haben. Lässt sich anhand der IP bestens kontrollieren. Siehe nachfolgenden Eintrag im logfile.

69.64.49.243 - - [25/Aug/2005:06:31:59 +0200] "GET / HTTP/1.1" 200 21232 "-" "Googlebot/2.1 (+https://www.google.com/bot.html)"
(schluck)

@sagem: Wie groß ist denn dein Anteil an falschen Google-Bot request und wie kann ich denn am einfachsten die Anzahl der echten GB-Requests tracken?
Grüße
whobee

was kann der googlebot alles?

Verfasst: 26.08.2005, 22:02
von linux
wenn nur über die ip

https://www.user-archiv.de/spider-ip.html

z.b dann tracken

oder wie ich es mache eregi googlebot mit php ip und request mitloggen
dann in der db einfach nach ip groupen und dann über die ne whois abfrage


gruß

linux

was kann der googlebot alles?

Verfasst: 27.08.2005, 08:47
von Sagem
@whobee
Also hier bei mir wars schon recht heftig. Mittlerweile sperre ich die vermeintlichen googlebot's in der htcaccess aus. Wer sich die Mühe macht und schaut woher die falschen googlebots herkommen, wird rasch fündig und landet fast immer bei dem selben Provider.

Merke: Nicht immer steckt in der Verpackung googlebot auch der echte googlebot :)

was kann der googlebot alles?

Verfasst: 27.08.2005, 16:00
von whobee
@sagem

Seit etwa 3 Wochen beobachte ich einen enormen Anstieg von Requests mit dem Referer Googlebot/2.1" in meinen Logfiles und wundere mich... vor allem verhält sich der neue "Googlebot/2.1" sehr sonderbar, crawled Seiten, die er voher nicht angefasst hat usw. u.s.f...
Merke: Nicht immer steckt in der Verpackung googlebot auch der echte googlebot
Natürlich war es naiv zu glauben, daß dem so ist, ich werde der Sache jetzt wohl auf den Grund gehen müssen! :-?

was kann der googlebot alles?

Verfasst: 27.08.2005, 16:39
von whobee
@linux

Habe gerade mal ein bisschen gestöbert:
In 464954 Logifile-Einträgen mit dem User-Agent Googlebot/2.1. der letzten beiden Wochen finde ich keinen des IP-Adressnetzes 64.68 und 209.185, die meisten Aufrufe kommen von 66.249.* ...

Schwer für mich zu sagen, ob die Adressen echt sind (IANA-BLK??)

Wie vollständig und aktuell ist denn diese Liste:
https://www.user-archiv.de/spider-ip.html
Also entweder werde ich gar nicht von Google gecrawled :bad-words: oder Liste ist nicht ganz aktuell ... Eigentlich kann ich mich momentan nicht über mein Ranking beschweren

@sagem: Wie erkenne ich denn eine gültige Google-Spideradresse zuverlässig? ripe?? Eine vollständige Adressliste wird es wohl ohnehin nie geben....

Viele Grüße
whobee

was kann der googlebot alles?

Verfasst: 27.08.2005, 17:57
von linux
@whobee

mach doch eingfach ein whois auf die ips

dann siehst schon von wem der bot ist

gruß

linux

was kann der googlebot alles?

Verfasst: 28.08.2005, 00:04
von RW
@linux
mach doch eingfach ein whois auf die ips

Zur ist Zeit? oder wie?

Aktuelle Bot IPs sind auch das was ich suche! (PSEUDO-SUMAS & Co)

RW