ABAKUS

Verfasst: **28.08.2005, 16:23**

Hallo zusammen,

ich hab da ein kleines Problem....

Obwohl das in meiner robots.txt steht

User-agent: *
Disallow: /archiv/

spidert google alle Seiten... die im Verzeichnis /archiv sind, inzwischen über 5500 Seiten!

Wieso ignoriert der Google Bot das ?

Gruß
Pseudo

Verfasst: **28.08.2005, 16:26**

Das sieht dann bei der Site Abfrage so aus...

www.domain.de/archiv/000541.html
Ähnliche Seiten

PS: Das sind alles ausgehende Links (mit modrewrite bearbeitet)

Verfasst: **29.08.2005, 00:35**

Hast Du eine eigene Sektion in der robots.txt für den Googlebot?

Verfasst: **29.08.2005, 01:52**

Das selbe Problem habe ich auch:
Seit Monaten hat Google alles so gehandhabt wie es in der robots.txt steht, aber seit neustem werden auch die nicht erlaubten Dateien gespidert, ohne dass ich an der robots.txt etwas geändert habe.
Eine eigene Sektion in der robots.txt für den Googlebot gibt es bei mir nicht.

mfg

Less

Verfasst: **29.08.2005, 02:11**

nimm deine seite ausm netz, wenn sie nicht besucht werden soll

Verfasst: **29.08.2005, 02:25**

@less: das ist in der Tat sehr merkwürdig. Könntest Du mir die URL per PN schicken?

@tron: naja ... er will ja nur teilbereiche nicht gespidert haben

Verfasst: **29.08.2005, 16:28**

Chris2005 hat geschrieben:Hast Du eine eigene Sektion in der robots.txt für den Googlebot?

Hab keine eigene Sektion für den Googlebot... Sollte ich vielleicht mal eine anlegen ? Ein Versuch wäre es mal...

Verfasst: **29.08.2005, 16:33**

Eigentlich sollte der "*" ausreichen. Ist das wirklich der "echte" G-Bot? Less hatte ein ähnliches Problem, aber der G-Bot ist ein gefakter Bot.

Poste mal die IP Adressen (oder einen Auszug).

Verfasst: **29.08.2005, 17:26**

Das Problem ist das wenn ich "Site:meinedomain.tld" Abfrage, dann erscheinen ja die ganzen Seiten.... und wie schon erwähnt sind das alles ausgehende Links und davon sind nun über 5000 bei Google vorhanden!

Verfasst: **29.08.2005, 19:06**

Erscheinen die mit Snippet oder nur als URL only?

Google hat die Angewohnheit alle Links in den Index zu packen, die vom G-Bot gefunden werden. Auch wenn diese in der robots.txt gesperrt sind. Diese Links werden aber nicht gespidert, sondern nur als URL Skelette in den Index gepackt.

Hast Du anhand der Logfiles geguckt, ob die Dateien tatsächlich gespidert werden?

Verfasst: **29.08.2005, 22:02**

Chris2005 hat geschrieben:Eigentlich sollte der "*" ausreichen. Ist das wirklich der "echte" G-Bot? Less hatte ein ähnliches Problem, aber der G-Bot ist ein gefakter Bot.

Poste mal die IP Adressen (oder einen Auszug).

Hab da auch mal drüber nachgedacht...

Verfasst: **30.08.2005, 13:15**

Chris2005 hat geschrieben:Erscheinen die mit Snippet oder nur als URL only?

Google hat die Angewohnheit alle Links in den Index zu packen, die vom G-Bot gefunden werden. Auch wenn diese in der robots.txt gesperrt sind. Diese Links werden aber nicht gespidert, sondern nur als URL Skelette in den Index gepackt.

Hast Du anhand der Logfiles geguckt, ob die Dateien tatsächlich gespidert werden?

1. Das würde einiges erklären...

2. Die Logs muss ich mir heute Abend mal nachsehen... Bin gerade auf der Arbeit!

Verfasst: **31.08.2005, 15:52**

So, hab mal in die Logs gesehen... Hier ein kleiner Auszug

Code: Alles auswählen

84.155.32.49 - - &#91;28/Aug/2005&#58;16&#58;26&#58;21 +0200&#93; "GET /css.css HTTP/1.1" 200 1279 "http&#58;//deine-domain.tld/" "Googlebot&#58; Googlebot/2.1 &#40;+http&#58;//www.google.com/bot.html&#41;"
84.155.32.49 - - &#91;28/Aug/2005&#58;16&#58;26&#58;22 +0200&#93; "GET / HTTP/1.1" 200 49513 "-" "Googlebot&#58; Googlebot/2.1 &#40;+http&#58;//www.google.com/bot.html&#41;"
84.155.32.49 - - &#91;28/Aug/2005&#58;16&#58;26&#58;24 +0200&#93; "GET /favicon.ico HTTP/1.1" 404 287 "-" "Googlebot&#58; Googlebot/2.1 &#40;+http&#58;//www.google.com/bot.html&#41;"
84.155.32.49 - - &#91;28/Aug/2005&#58;16&#58;26&#58;24 +0200&#93; "GET /favicon.ico HTTP/1.1" 404 287 "-" "Googlebot&#58; Googlebot/2.1 &#40;+http&#58;//www.google.com/bot.html&#41;"
84.155.32.49 - - &#91;28/Aug/2005&#58;16&#58;27&#58;06 +0200&#93; "GET /archiv/15700.html HTTP/1.1" 302 5 "http&#58;//deine-domain.tld/" "Googlebot&#58; Googlebot/2.1 &#40;+http&#58;//www.google.com/bot.html&#41;"
84.155.32.49 - - &#91;28/Aug/2005&#58;16&#58;27&#58;06 +0200&#93; "GET /archiv/15699.html HTTP/1.1" 302 5 "http&#58;//deine-domain.tld/" "Googlebot&#58; Googlebot/2.1 &#40;+http&#58;//www.google.com/bot.html&#41;"
84.155.32.49 - - &#91;28/Aug/2005&#58;16&#58;27&#58;54 +0200&#93; "GET /archiv/15677.html HTTP/1.1" 302 5 "http&#58;//deine-domain.tld/" "Googlebot&#58; Googlebot/2.1 &#40;+http&#58;//www.google.com/bot.html&#41;"
84.155.32.49 - - &#91;28/Aug/2005&#58;16&#58;28&#58;26 +0200&#93; "GET /archiv/15653.html HTTP/1.1" 302 5 "http&#58;//deine-domain.tld/" "Googlebot&#58; Googlebot/2.1 &#40;+http&#58;//www.google.com/bot.html&#41;"

Anscheind spidert Google doch die ganzen Seiten... und seit wann zieht sich Google die CSS Datei ??? War das schon immer so mit der CSS ?

Obwohl
User-agent: *
Disallow: /archiv/
in der robots.txt steht ruft er sich die Seiten aus dem Archiv auf... nur warum ?

Könnte es am <meta name="robots" content="index,follow" /> im html File liegen ?

PS: archiv/15699.html wird per modrewrite auf eine outbound Datei umgeleitet...

Verfasst: **31.08.2005, 16:15**

Hallo,

die IP sieht mir aber nicht nach Google aus...

Grüße

platypus

Verfasst: **31.08.2005, 16:24**

Stimmt...

https://www.whois.sc/84.155.32.49 ist einer aus dem Telekom Pool

Edit: Hab mal jetzt 20 weitere Logfiles durchsucht... So wie es aussieht, zieht sich Google doch nicht die Daten aus dem Archiv!

ABAKUS

Google spidert mir zuviel

Google spidert mir zuviel

Google spidert mir zuviel

Google spidert mir zuviel

Google spidert mir zuviel

Google spidert mir zuviel

Re: Google spidert mir zuviel

Google spidert mir zuviel

Google spidert mir zuviel

Google spidert mir zuviel

Re: Google spidert mir zuviel

Re: Google spidert mir zuviel

Google spidert mir zuviel

Google spidert mir zuviel