Seite 1 von 1
Google spidert mir zuviel
Verfasst: 28.08.2005, 16:23
von Pseudo
Hallo zusammen,
ich hab da ein kleines Problem....
Obwohl das in meiner robots.txt steht
User-agent: *
Disallow: /archiv/
spidert google alle Seiten... die im Verzeichnis /archiv sind, inzwischen über 5500 Seiten!
Wieso ignoriert der Google Bot das ?
Gruß
Pseudo
Verfasst:
von
Hochwertiger Linkaufbau bei ABAKUS:
- Google-konformer Linkaufbau
- nachhaltiges Ranking
- Linkbuilding Angebote zu fairen Preisen
- internationale Backlinks
Wir bieten
Beratung und
Umsetzung.
Jetzt anfragen:
0511 / 300325-0
Google spidert mir zuviel
Verfasst: 28.08.2005, 16:26
von Pseudo
Das sieht dann bei der Site Abfrage so aus...
www.domain.de/archiv/000541.html
Ähnliche Seiten
PS: Das sind alles ausgehende Links (mit modrewrite bearbeitet)
Google spidert mir zuviel
Verfasst: 29.08.2005, 00:35
von Chris2005
Hast Du eine eigene Sektion in der robots.txt für den Googlebot?
Verfasst:
von
Content Erstellung von
ABAKUS Internet Marketing
Ihre Vorteile:
- einzigartige Texte
- suchmaschinenoptimierte Inhalte
- eine sinnvolle Content-Strategie
- Beratung und Umsetzung
Jetzt anfragen:
0511 / 300325-0
Verfasst: 29.08.2005, 01:52
von Less
Das selbe Problem habe ich auch:
Seit Monaten hat Google alles so gehandhabt wie es in der robots.txt steht, aber seit neustem werden auch die nicht erlaubten Dateien gespidert, ohne dass ich an der robots.txt etwas geändert habe.
Eine eigene Sektion in der robots.txt für den Googlebot gibt es bei mir nicht.
mfg
Less
Google spidert mir zuviel
Verfasst: 29.08.2005, 02:11
von tron
nimm deine seite ausm netz, wenn sie nicht besucht werden soll

Google spidert mir zuviel
Verfasst: 29.08.2005, 02:25
von Chris2005
@less: das ist in der Tat sehr merkwürdig. Könntest Du mir die URL per PN schicken?
@tron: naja ... er will ja nur teilbereiche nicht gespidert haben

Re: Google spidert mir zuviel
Verfasst: 29.08.2005, 16:28
von Pseudo
Chris2005 hat geschrieben:Hast Du eine eigene Sektion in der robots.txt für den Googlebot?
Hab keine eigene Sektion für den Googlebot... Sollte ich vielleicht mal eine anlegen ? Ein Versuch wäre es mal...
Google spidert mir zuviel
Verfasst: 29.08.2005, 16:33
von Chris2005
Eigentlich sollte der "*" ausreichen. Ist das wirklich der "echte" G-Bot? Less hatte ein ähnliches Problem, aber der G-Bot ist ein gefakter Bot.
Poste mal die IP Adressen (oder einen Auszug).
Google spidert mir zuviel
Verfasst: 29.08.2005, 17:26
von Pseudo
Das Problem ist das wenn ich "Site:meinedomain.tld" Abfrage, dann erscheinen ja die ganzen Seiten.... und wie schon erwähnt sind das alles ausgehende Links und davon sind nun über 5000 bei Google vorhanden!
Google spidert mir zuviel
Verfasst: 29.08.2005, 19:06
von Chris2005
Erscheinen die mit Snippet oder nur als URL only?
Google hat die Angewohnheit alle Links in den Index zu packen, die vom G-Bot gefunden werden. Auch wenn diese in der robots.txt gesperrt sind. Diese Links werden aber nicht gespidert, sondern nur als URL Skelette in den Index gepackt.
Hast Du anhand der Logfiles geguckt, ob die Dateien tatsächlich gespidert werden?
Re: Google spidert mir zuviel
Verfasst: 29.08.2005, 22:02
von Beginner
Chris2005 hat geschrieben:Eigentlich sollte der "*" ausreichen. Ist das wirklich der "echte" G-Bot? Less hatte ein ähnliches Problem, aber der G-Bot ist ein gefakter Bot.
Poste mal die IP Adressen (oder einen Auszug).
Hab da auch mal drüber nachgedacht...
Re: Google spidert mir zuviel
Verfasst: 30.08.2005, 13:15
von Pseudo
Chris2005 hat geschrieben:Erscheinen die mit Snippet oder nur als URL only?
Google hat die Angewohnheit alle Links in den Index zu packen, die vom G-Bot gefunden werden. Auch wenn diese in der robots.txt gesperrt sind. Diese Links werden aber nicht gespidert, sondern nur als URL Skelette in den Index gepackt.
Hast Du anhand der Logfiles geguckt, ob die Dateien tatsächlich gespidert werden?
1. Das würde einiges erklären...
2. Die Logs muss ich mir heute Abend mal nachsehen... Bin gerade auf der Arbeit!
Google spidert mir zuviel
Verfasst: 31.08.2005, 15:52
von Pseudo
So, hab mal in die Logs gesehen... Hier ein kleiner Auszug
Code: Alles auswählen
84.155.32.49 - - [28/Aug/2005:16:26:21 +0200] "GET /css.css HTTP/1.1" 200 1279 "http://deine-domain.tld/" "Googlebot: Googlebot/2.1 (+http://www.google.com/bot.html)"
84.155.32.49 - - [28/Aug/2005:16:26:22 +0200] "GET / HTTP/1.1" 200 49513 "-" "Googlebot: Googlebot/2.1 (+http://www.google.com/bot.html)"
84.155.32.49 - - [28/Aug/2005:16:26:24 +0200] "GET /favicon.ico HTTP/1.1" 404 287 "-" "Googlebot: Googlebot/2.1 (+http://www.google.com/bot.html)"
84.155.32.49 - - [28/Aug/2005:16:26:24 +0200] "GET /favicon.ico HTTP/1.1" 404 287 "-" "Googlebot: Googlebot/2.1 (+http://www.google.com/bot.html)"
84.155.32.49 - - [28/Aug/2005:16:27:06 +0200] "GET /archiv/15700.html HTTP/1.1" 302 5 "http://deine-domain.tld/" "Googlebot: Googlebot/2.1 (+http://www.google.com/bot.html)"
84.155.32.49 - - [28/Aug/2005:16:27:06 +0200] "GET /archiv/15699.html HTTP/1.1" 302 5 "http://deine-domain.tld/" "Googlebot: Googlebot/2.1 (+http://www.google.com/bot.html)"
84.155.32.49 - - [28/Aug/2005:16:27:54 +0200] "GET /archiv/15677.html HTTP/1.1" 302 5 "http://deine-domain.tld/" "Googlebot: Googlebot/2.1 (+http://www.google.com/bot.html)"
84.155.32.49 - - [28/Aug/2005:16:28:26 +0200] "GET /archiv/15653.html HTTP/1.1" 302 5 "http://deine-domain.tld/" "Googlebot: Googlebot/2.1 (+http://www.google.com/bot.html)"
Anscheind spidert Google doch die ganzen Seiten... und seit wann zieht sich Google die CSS Datei ??? War das schon immer so mit der CSS ?
Obwohl
User-agent: *
Disallow: /archiv/
in der robots.txt steht ruft er sich die Seiten aus dem Archiv auf... nur warum ?
Könnte es am <meta name="robots" content="index,follow" /> im html File liegen ?
PS: archiv/15699.html wird per modrewrite auf eine outbound Datei umgeleitet...
Verfasst: 31.08.2005, 16:15
von platypus
Hallo,
die IP sieht mir aber nicht nach Google aus...
Grüße
platypus
Google spidert mir zuviel
Verfasst: 31.08.2005, 16:24
von Pseudo
Stimmt...
https://www.whois.sc/84.155.32.49 ist einer aus dem Telekom Pool
Edit: Hab mal jetzt 20 weitere Logfiles durchsucht... So wie es aussieht, zieht sich Google doch nicht die Daten aus dem Archiv!