Google spidert mir zuviel

Beitrag von **Pseudo** » 28.08.2005, 16:23

Hallo zusammen,

ich hab da ein kleines Problem....

Obwohl das in meiner robots.txt steht

User-agent: *
Disallow: /archiv/

spidert google alle Seiten... die im Verzeichnis /archiv sind, inzwischen über 5500 Seiten!

Wieso ignoriert der Google Bot das ?

Gruß
Pseudo

von **Anzeige von ABAKUS** »

Beitrag von **Pseudo** » 28.08.2005, 16:26

Das sieht dann bei der Site Abfrage so aus...

www.domain.de/archiv/000541.html
Ähnliche Seiten

PS: Das sind alles ausgehende Links (mit modrewrite bearbeitet)

Beitrag von **Chris2005** » 29.08.2005, 00:35

Hast Du eine eigene Sektion in der robots.txt für den Googlebot?

von **Anzeige von ABAKUS** »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:

einzigartige Texte
suchmaschinenoptimierte Inhalte
eine sinnvolle Content-Strategie
Beratung und Umsetzung

Jetzt anfragen: 0511 / 300325-0

Beitrag von **Less** » 29.08.2005, 01:52

Das selbe Problem habe ich auch:
Seit Monaten hat Google alles so gehandhabt wie es in der robots.txt steht, aber seit neustem werden auch die nicht erlaubten Dateien gespidert, ohne dass ich an der robots.txt etwas geändert habe.
Eine eigene Sektion in der robots.txt für den Googlebot gibt es bei mir nicht.

mfg

Less

Beitrag von **tron** » 29.08.2005, 02:11

nimm deine seite ausm netz, wenn sie nicht besucht werden soll

Beitrag von **Chris2005** » 29.08.2005, 02:25

@less: das ist in der Tat sehr merkwürdig. Könntest Du mir die URL per PN schicken?

@tron: naja ... er will ja nur teilbereiche nicht gespidert haben

Beitrag von **Pseudo** » 29.08.2005, 16:28

Chris2005 hat geschrieben:Hast Du eine eigene Sektion in der robots.txt für den Googlebot?

Hab keine eigene Sektion für den Googlebot... Sollte ich vielleicht mal eine anlegen ? Ein Versuch wäre es mal...

Beitrag von **Chris2005** » 29.08.2005, 16:33

Eigentlich sollte der "*" ausreichen. Ist das wirklich der "echte" G-Bot? Less hatte ein ähnliches Problem, aber der G-Bot ist ein gefakter Bot.

Poste mal die IP Adressen (oder einen Auszug).

Beitrag von **Pseudo** » 29.08.2005, 17:26

Das Problem ist das wenn ich "Site:meinedomain.tld" Abfrage, dann erscheinen ja die ganzen Seiten.... und wie schon erwähnt sind das alles ausgehende Links und davon sind nun über 5000 bei Google vorhanden!

Beitrag von **Chris2005** » 29.08.2005, 19:06

Erscheinen die mit Snippet oder nur als URL only?

Google hat die Angewohnheit alle Links in den Index zu packen, die vom G-Bot gefunden werden. Auch wenn diese in der robots.txt gesperrt sind. Diese Links werden aber nicht gespidert, sondern nur als URL Skelette in den Index gepackt.

Hast Du anhand der Logfiles geguckt, ob die Dateien tatsächlich gespidert werden?

Beitrag von **Beginner** » 29.08.2005, 22:02

Chris2005 hat geschrieben:Eigentlich sollte der "*" ausreichen. Ist das wirklich der "echte" G-Bot? Less hatte ein ähnliches Problem, aber der G-Bot ist ein gefakter Bot.

Poste mal die IP Adressen (oder einen Auszug).

Hab da auch mal drüber nachgedacht...

Beitrag von **Pseudo** » 30.08.2005, 13:15

Chris2005 hat geschrieben:Erscheinen die mit Snippet oder nur als URL only?

Google hat die Angewohnheit alle Links in den Index zu packen, die vom G-Bot gefunden werden. Auch wenn diese in der robots.txt gesperrt sind. Diese Links werden aber nicht gespidert, sondern nur als URL Skelette in den Index gepackt.

Hast Du anhand der Logfiles geguckt, ob die Dateien tatsächlich gespidert werden?

1. Das würde einiges erklären...

2. Die Logs muss ich mir heute Abend mal nachsehen... Bin gerade auf der Arbeit!

Beitrag von **Pseudo** » 31.08.2005, 15:52

So, hab mal in die Logs gesehen... Hier ein kleiner Auszug

Code: Alles auswählen

84.155.32.49 - - &#91;28/Aug/2005&#58;16&#58;26&#58;21 +0200&#93; "GET /css.css HTTP/1.1" 200 1279 "http&#58;//deine-domain.tld/" "Googlebot&#58; Googlebot/2.1 &#40;+http&#58;//www.google.com/bot.html&#41;"
84.155.32.49 - - &#91;28/Aug/2005&#58;16&#58;26&#58;22 +0200&#93; "GET / HTTP/1.1" 200 49513 "-" "Googlebot&#58; Googlebot/2.1 &#40;+http&#58;//www.google.com/bot.html&#41;"
84.155.32.49 - - &#91;28/Aug/2005&#58;16&#58;26&#58;24 +0200&#93; "GET /favicon.ico HTTP/1.1" 404 287 "-" "Googlebot&#58; Googlebot/2.1 &#40;+http&#58;//www.google.com/bot.html&#41;"
84.155.32.49 - - &#91;28/Aug/2005&#58;16&#58;26&#58;24 +0200&#93; "GET /favicon.ico HTTP/1.1" 404 287 "-" "Googlebot&#58; Googlebot/2.1 &#40;+http&#58;//www.google.com/bot.html&#41;"
84.155.32.49 - - &#91;28/Aug/2005&#58;16&#58;27&#58;06 +0200&#93; "GET /archiv/15700.html HTTP/1.1" 302 5 "http&#58;//deine-domain.tld/" "Googlebot&#58; Googlebot/2.1 &#40;+http&#58;//www.google.com/bot.html&#41;"
84.155.32.49 - - &#91;28/Aug/2005&#58;16&#58;27&#58;06 +0200&#93; "GET /archiv/15699.html HTTP/1.1" 302 5 "http&#58;//deine-domain.tld/" "Googlebot&#58; Googlebot/2.1 &#40;+http&#58;//www.google.com/bot.html&#41;"
84.155.32.49 - - &#91;28/Aug/2005&#58;16&#58;27&#58;54 +0200&#93; "GET /archiv/15677.html HTTP/1.1" 302 5 "http&#58;//deine-domain.tld/" "Googlebot&#58; Googlebot/2.1 &#40;+http&#58;//www.google.com/bot.html&#41;"
84.155.32.49 - - &#91;28/Aug/2005&#58;16&#58;28&#58;26 +0200&#93; "GET /archiv/15653.html HTTP/1.1" 302 5 "http&#58;//deine-domain.tld/" "Googlebot&#58; Googlebot/2.1 &#40;+http&#58;//www.google.com/bot.html&#41;"

Anscheind spidert Google doch die ganzen Seiten... und seit wann zieht sich Google die CSS Datei ??? War das schon immer so mit der CSS ?

Obwohl
User-agent: *
Disallow: /archiv/
in der robots.txt steht ruft er sich die Seiten aus dem Archiv auf... nur warum ?

Könnte es am <meta name="robots" content="index,follow" /> im html File liegen ?

PS: archiv/15699.html wird per modrewrite auf eine outbound Datei umgeleitet...

Beitrag von **platypus** » 31.08.2005, 16:15

Hallo,

die IP sieht mir aber nicht nach Google aus...

Grüße

platypus

Beitrag von **Pseudo** » 31.08.2005, 16:24

Stimmt...

https://www.whois.sc/84.155.32.49 ist einer aus dem Telekom Pool

Edit: Hab mal jetzt 20 weitere Logfiles durchsucht... So wie es aussieht, zieht sich Google doch nicht die Daten aus dem Archiv!