Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

was kann der googlebot alles?

Dieses Forum ist für Informationen über Google gedacht (Ausser PageRank!).
Neues Thema Antworten
linux
PostRank 7
PostRank 7
Beiträge: 524
Registriert: 05.05.2004, 09:45

Beitrag von linux » 26.08.2005, 14:43

Hallo alle zusammen,

durch massive googlebot besuche und sessionsumbaumaßnahmen sind mir paar sachen am bot aufgefallen.

1. anscheinend kann sich der bot verlaufen ohne daß es einen link zu einer seite gibt
beispiel index.php?page=1&id=xxx wird im link übergeben, damit der user auf die page auf der er war wieder zurückkommt. der bot nun nimmt index.php?page=10&id=xxx obwohl es bei der auswahl keine page 10 gibt, sprich er merkt sich das page und trägt einfach bei allen id die zahlen ein die er mal gefunden hat!!!!!!! ich meine ich bin dann der spammer oder wie

hab ihr das auch schon mal bemerkt?

2. session ids wir PHPSESSID oder sid gelanden in den index obwohl jedem klar ist daß das keine unterschiedliche seiten sind!!!

3. auch ohne verlaufen kommt der bot 1 mil mal in der we das find ich ziemlich viel


gruß

linux

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Malte Landwehr
PostRank 10
PostRank 10
Beiträge: 3474
Registriert: 22.05.2005, 10:45

Beitrag von Malte Landwehr » 26.08.2005, 15:09

2.1 ist bekannt (Stichwort modrewrite)

Zu 2.2 Was meinst du mit Verlauf? Wenn genug frischer Content und genügen eingehende Links da sind kommt der Bot auch täglich.
Die 45 wichtigsten SEO-Tools und wie ich sie nutze.

linux
PostRank 7
PostRank 7
Beiträge: 524
Registriert: 05.05.2004, 09:45

Beitrag von linux » 26.08.2005, 15:32

naja täglich ist ok aber dann mal kurz 300.000 seiten mitnehmen ist schon bischen viel

zu modrewrite
hm ok er hat also immer noch probleme mit dem & und ich muß doch mod_rewite machen, denn eigendlich wollte ich &page nehmen um gogle zu zeigen die seiten sind aus der db

gruß

linux

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

marc75
PostRank 9
PostRank 9
Beiträge: 1916
Registriert: 06.10.2004, 09:36

Beitrag von marc75 » 26.08.2005, 15:40

schalte die session ab wenn ein bot kommt und das mit dem page=id hab ich nicht bemerkt, hab auch noch eine Seite mit sowas, da hängt google keine ids alleine dran.

Sagem
PostRank 2
PostRank 2
Beiträge: 59
Registriert: 21.09.2003, 21:55
Wohnort: Braunschweig

Beitrag von Sagem » 26.08.2005, 16:02

Schau mal ob es überhaupt der googlebot ist. In meinen logfiles tauchen bots auf - mit der googlebot-Kennung - die jedoch mit google aber auch nix zu tun haben. Lässt sich anhand der IP bestens kontrollieren. Siehe nachfolgenden Eintrag im logfile.

69.64.49.243 - - [25/Aug/2005:06:31:59 +0200] "GET / HTTP/1.1" 200 21232 "-" "Googlebot/2.1 (+https://www.google.com/bot.html)"

Schönes Wochenende :)

ownz
PostRank 2
PostRank 2
Beiträge: 47
Registriert: 02.08.2005, 13:42

Beitrag von ownz » 26.08.2005, 19:46

Zu 3)

"kommt der bot 1 mil mal in der we "

Also wenn der Googlebot bei dir eine Millionen Mal kommt, dann ist es sicherlich nicht DER Googlebot ;)

Oder meintest du eher einmal am Weekend?

Grüße, ownz

linux
PostRank 7
PostRank 7
Beiträge: 524
Registriert: 05.05.2004, 09:45

Beitrag von linux » 26.08.2005, 20:47

ownz
es waren bei sub und haupdomian ca 800.000 botbesuche von 22.-25 und war der echte googlebot, hab dafür ein logfile.

marc75
das hab ich eh aber ich brauchte ein tracking das über subbdomains geht, und da gingen nur session, die session wird aber nur gestartet wenn es kein googlebot,oder anderer bot ist. uaßder wird die session nur angehangen, wenn man subdomaisn wechselt.

ich habe alles überprüft bezüglich page=x denn ich dachte auch daß ein programmierer einen fehler gemacht hat, dem war aber nicht so.

und ich meine solche requests von google 66.249.66.165 - - [26/Aug/2005:08:42:45 +0200] "GET /reisen/ferienwohnungen/index_page34_dk_D%C3%83%C6%92%C3%86%E2%80%99%C3%83%E2%80%A0%C3%A2%E2%82%AC%E2%84
%A2%C3%83%C6%92%C3%A2%E2%82%AC%C2%A0%C3%83%C2%A2%C3%A2%E2%80%9A%C2%AC%C3%A2%E2%80%9E%C2%A2%C3%83%C6%92%C3%86%E2%80%99%C3%83%C2%A2%C3%A2%E2%80%9A%C2%AC%C3%82
%C2%A0%C3%83%C6%92%C3%82%C2%A2%C3%83%C2%A2%C3%A2%E2%82%AC%C5%A1%C3%82%C2%AC%C3%83%C2%A2%C3%A2%E2%82%AC%C5%BE%C3%82%C2%A2%C3%83%C6%92%C3%86%E2%80%99%C3%83%E2
%80%A0%C3%A2%E2%82%AC%E2%84%A2%C3%83%C6%92%C3%82%C2%A2%C3%83%C2%A2%C3%A2%E2%82%AC%C5%A1%C3%82%C2%AC%C3%83%E2%80%9A%C3%82%C2%A0%C3%83%C6%92%C3%86%E2%80%99%C3
%83%E2%80%9A%C3%82%C2%A2%C3%83%C6%92%C3%82%C2%A2%C3%83%C2%A2%C3%A2%E2%80%9A%C2%AC%C3%85%C2%A1%C3%83%E2%80%9A%C3%82%C2%AC%C3%83%C6%92%C3%82%C2%A2%C3%83%C2%A2
%C3%A2%E2%80%9A%C2%AC%C3%85%C2%BE%C3%83%E2%80%9A%C3%82%C2%A2%C3%83%C6%92%C3%86%E2%80%99%C3%83%E2%80%A0%C3%A2%E2%82%AC%E2%84%A2%C3%83%C6%92%C3%A2%E2%82%AC%C2
%A0%C3%83%C2%A2%C3%A2%E2%80%9A%C2%AC%C3%A2%E2%80%9E%C2%A2%C3%83%C6%92%C3%86%E2%80%99%C3%83%E2%80%9A%C3%82%C2%A2%C3%83%C6%92%C3%82%C2%A2%C3%83%C2%A2%C3%A2%E2
%80%9A%C2%AC%C3%85%C2%A1%C3%83%E2%80%9A%C3%82%C2%AC%C3%83%C6%92%C3%A2%E2%82%AC%C2%A6%C3%83%E2%80%9A%C3%82%C2%A1%C3%83%C6%92%C3%86%E2%80%99%C3%83%E2%80%A0%C3
%A2%E2%82%AC%E2%84%A2%C3%83%C6%92%C3%82%C2%A2%C3%83%C2%A2%C3%A2%E2%82%AC%C5%A1%C3%82%C2%AC%C3%83%E2%80%A6%C3%82%C2%A1%C3%83%C6%92%C3%86%E2%80%99%C3%83%C2%A2
%C3%A2%E2%80%9A%C2%AC%C3%85%C2%A1%C3%83%C6%92%C3%A2%E2%82%AC%C5%A1%C3%83%E2%80%9A%C3%82%C2%A4nemark.html HTTP/1.1" 403 922 "-" "Mozilla/5.0 (compatible; Goo
glebot/2.1; +https://www.google.com/bot.html)"


es solll wohl dänemark heißen



gruß


linux

whobee
PostRank 1
PostRank 1
Beiträge: 27
Registriert: 19.07.2005, 00:10

Beitrag von whobee » 26.08.2005, 21:44

Schau mal ob es überhaupt der googlebot ist. In meinen logfiles tauchen bots auf - mit der googlebot-Kennung - die jedoch mit google aber auch nix zu tun haben. Lässt sich anhand der IP bestens kontrollieren. Siehe nachfolgenden Eintrag im logfile.

69.64.49.243 - - [25/Aug/2005:06:31:59 +0200] "GET / HTTP/1.1" 200 21232 "-" "Googlebot/2.1 (+https://www.google.com/bot.html)"
(schluck)

@sagem: Wie groß ist denn dein Anteil an falschen Google-Bot request und wie kann ich denn am einfachsten die Anzahl der echten GB-Requests tracken?
Grüße
whobee

linux
PostRank 7
PostRank 7
Beiträge: 524
Registriert: 05.05.2004, 09:45

Beitrag von linux » 26.08.2005, 22:02

wenn nur über die ip

https://www.user-archiv.de/spider-ip.html

z.b dann tracken

oder wie ich es mache eregi googlebot mit php ip und request mitloggen
dann in der db einfach nach ip groupen und dann über die ne whois abfrage


gruß

linux

Sagem
PostRank 2
PostRank 2
Beiträge: 59
Registriert: 21.09.2003, 21:55
Wohnort: Braunschweig

Beitrag von Sagem » 27.08.2005, 08:47

@whobee
Also hier bei mir wars schon recht heftig. Mittlerweile sperre ich die vermeintlichen googlebot's in der htcaccess aus. Wer sich die Mühe macht und schaut woher die falschen googlebots herkommen, wird rasch fündig und landet fast immer bei dem selben Provider.

Merke: Nicht immer steckt in der Verpackung googlebot auch der echte googlebot :)

whobee
PostRank 1
PostRank 1
Beiträge: 27
Registriert: 19.07.2005, 00:10

Beitrag von whobee » 27.08.2005, 16:00

@sagem

Seit etwa 3 Wochen beobachte ich einen enormen Anstieg von Requests mit dem Referer Googlebot/2.1" in meinen Logfiles und wundere mich... vor allem verhält sich der neue "Googlebot/2.1" sehr sonderbar, crawled Seiten, die er voher nicht angefasst hat usw. u.s.f...
Merke: Nicht immer steckt in der Verpackung googlebot auch der echte googlebot
Natürlich war es naiv zu glauben, daß dem so ist, ich werde der Sache jetzt wohl auf den Grund gehen müssen! :-?

whobee
PostRank 1
PostRank 1
Beiträge: 27
Registriert: 19.07.2005, 00:10

Beitrag von whobee » 27.08.2005, 16:39

@linux

Habe gerade mal ein bisschen gestöbert:
In 464954 Logifile-Einträgen mit dem User-Agent Googlebot/2.1. der letzten beiden Wochen finde ich keinen des IP-Adressnetzes 64.68 und 209.185, die meisten Aufrufe kommen von 66.249.* ...

Schwer für mich zu sagen, ob die Adressen echt sind (IANA-BLK??)

Wie vollständig und aktuell ist denn diese Liste:
Also entweder werde ich gar nicht von Google gecrawled :bad-words: oder Liste ist nicht ganz aktuell ... Eigentlich kann ich mich momentan nicht über mein Ranking beschweren

@sagem: Wie erkenne ich denn eine gültige Google-Spideradresse zuverlässig? ripe?? Eine vollständige Adressliste wird es wohl ohnehin nie geben....

Viele Grüße
whobee

linux
PostRank 7
PostRank 7
Beiträge: 524
Registriert: 05.05.2004, 09:45

Beitrag von linux » 27.08.2005, 17:57

@whobee

mach doch eingfach ein whois auf die ips

dann siehst schon von wem der bot ist

gruß

linux

RW
PostRank 6
PostRank 6
Beiträge: 436
Registriert: 23.07.2003, 08:54

Beitrag von RW » 28.08.2005, 00:04

@linux
mach doch eingfach ein whois auf die ips

Zur ist Zeit? oder wie?

Aktuelle Bot IPs sind auch das was ich suche! (PSEUDO-SUMAS & Co)

RW

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag