Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Google spidert mir zuviel

Dieses Forum ist für Informationen über Google gedacht (Ausser PageRank!).
Neues Thema Antworten
Pseudo
PostRank 4
PostRank 4
Beiträge: 153
Registriert: 18.05.2005, 23:01

Beitrag von Pseudo » 28.08.2005, 16:23

Hallo zusammen,

ich hab da ein kleines Problem....

Obwohl das in meiner robots.txt steht

User-agent: *
Disallow: /archiv/

spidert google alle Seiten... die im Verzeichnis /archiv sind, inzwischen über 5500 Seiten!

Wieso ignoriert der Google Bot das ?

Gruß
Pseudo

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Pseudo
PostRank 4
PostRank 4
Beiträge: 153
Registriert: 18.05.2005, 23:01

Beitrag von Pseudo » 28.08.2005, 16:26

Das sieht dann bei der Site Abfrage so aus...

www.domain.de/archiv/000541.html
Ähnliche Seiten

PS: Das sind alles ausgehende Links (mit modrewrite bearbeitet)

Chris2005
PostRank 9
PostRank 9
Beiträge: 1284
Registriert: 14.04.2005, 23:58

Beitrag von Chris2005 » 29.08.2005, 00:35

Hast Du eine eigene Sektion in der robots.txt für den Googlebot?

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Less
PostRank 2
PostRank 2
Beiträge: 50
Registriert: 01.04.2005, 01:08

Beitrag von Less » 29.08.2005, 01:52

Das selbe Problem habe ich auch:
Seit Monaten hat Google alles so gehandhabt wie es in der robots.txt steht, aber seit neustem werden auch die nicht erlaubten Dateien gespidert, ohne dass ich an der robots.txt etwas geändert habe.
Eine eigene Sektion in der robots.txt für den Googlebot gibt es bei mir nicht.

mfg

Less

tron
PostRank 8
PostRank 8
Beiträge: 862
Registriert: 16.09.2003, 13:56
Wohnort: HUHU

Beitrag von tron » 29.08.2005, 02:11

nimm deine seite ausm netz, wenn sie nicht besucht werden soll :P :lol:

Chris2005
PostRank 9
PostRank 9
Beiträge: 1284
Registriert: 14.04.2005, 23:58

Beitrag von Chris2005 » 29.08.2005, 02:25

@less: das ist in der Tat sehr merkwürdig. Könntest Du mir die URL per PN schicken?

@tron: naja ... er will ja nur teilbereiche nicht gespidert haben :)

Pseudo
PostRank 4
PostRank 4
Beiträge: 153
Registriert: 18.05.2005, 23:01

Beitrag von Pseudo » 29.08.2005, 16:28

Chris2005 hat geschrieben:Hast Du eine eigene Sektion in der robots.txt für den Googlebot?
Hab keine eigene Sektion für den Googlebot... Sollte ich vielleicht mal eine anlegen ? Ein Versuch wäre es mal...

Chris2005
PostRank 9
PostRank 9
Beiträge: 1284
Registriert: 14.04.2005, 23:58

Beitrag von Chris2005 » 29.08.2005, 16:33

Eigentlich sollte der "*" ausreichen. Ist das wirklich der "echte" G-Bot? Less hatte ein ähnliches Problem, aber der G-Bot ist ein gefakter Bot.

Poste mal die IP Adressen (oder einen Auszug).

Pseudo
PostRank 4
PostRank 4
Beiträge: 153
Registriert: 18.05.2005, 23:01

Beitrag von Pseudo » 29.08.2005, 17:26

Das Problem ist das wenn ich "Site:meinedomain.tld" Abfrage, dann erscheinen ja die ganzen Seiten.... und wie schon erwähnt sind das alles ausgehende Links und davon sind nun über 5000 bei Google vorhanden!

Chris2005
PostRank 9
PostRank 9
Beiträge: 1284
Registriert: 14.04.2005, 23:58

Beitrag von Chris2005 » 29.08.2005, 19:06

Erscheinen die mit Snippet oder nur als URL only?

Google hat die Angewohnheit alle Links in den Index zu packen, die vom G-Bot gefunden werden. Auch wenn diese in der robots.txt gesperrt sind. Diese Links werden aber nicht gespidert, sondern nur als URL Skelette in den Index gepackt.

Hast Du anhand der Logfiles geguckt, ob die Dateien tatsächlich gespidert werden?

Beginner
PostRank 4
PostRank 4
Beiträge: 124
Registriert: 20.01.2005, 20:37

Beitrag von Beginner » 29.08.2005, 22:02

Chris2005 hat geschrieben:Eigentlich sollte der "*" ausreichen. Ist das wirklich der "echte" G-Bot? Less hatte ein ähnliches Problem, aber der G-Bot ist ein gefakter Bot.

Poste mal die IP Adressen (oder einen Auszug).

Hab da auch mal drüber nachgedacht...

Pseudo
PostRank 4
PostRank 4
Beiträge: 153
Registriert: 18.05.2005, 23:01

Beitrag von Pseudo » 30.08.2005, 13:15

Chris2005 hat geschrieben:Erscheinen die mit Snippet oder nur als URL only?

Google hat die Angewohnheit alle Links in den Index zu packen, die vom G-Bot gefunden werden. Auch wenn diese in der robots.txt gesperrt sind. Diese Links werden aber nicht gespidert, sondern nur als URL Skelette in den Index gepackt.

Hast Du anhand der Logfiles geguckt, ob die Dateien tatsächlich gespidert werden?
1. Das würde einiges erklären...

2. Die Logs muss ich mir heute Abend mal nachsehen... Bin gerade auf der Arbeit!

Pseudo
PostRank 4
PostRank 4
Beiträge: 153
Registriert: 18.05.2005, 23:01

Beitrag von Pseudo » 31.08.2005, 15:52

So, hab mal in die Logs gesehen... Hier ein kleiner Auszug

Code: Alles auswählen

84.155.32.49 - - [28/Aug/2005:16:26:21 +0200] "GET /css.css HTTP/1.1" 200 1279 "http://deine-domain.tld/" "Googlebot: Googlebot/2.1 (+http://www.google.com/bot.html)"
84.155.32.49 - - [28/Aug/2005:16:26:22 +0200] "GET / HTTP/1.1" 200 49513 "-" "Googlebot: Googlebot/2.1 (+http://www.google.com/bot.html)"
84.155.32.49 - - [28/Aug/2005:16:26:24 +0200] "GET /favicon.ico HTTP/1.1" 404 287 "-" "Googlebot: Googlebot/2.1 (+http://www.google.com/bot.html)"
84.155.32.49 - - [28/Aug/2005:16:26:24 +0200] "GET /favicon.ico HTTP/1.1" 404 287 "-" "Googlebot: Googlebot/2.1 (+http://www.google.com/bot.html)"
84.155.32.49 - - [28/Aug/2005:16:27:06 +0200] "GET /archiv/15700.html HTTP/1.1" 302 5 "http://deine-domain.tld/" "Googlebot: Googlebot/2.1 (+http://www.google.com/bot.html)"
84.155.32.49 - - [28/Aug/2005:16:27:06 +0200] "GET /archiv/15699.html HTTP/1.1" 302 5 "http://deine-domain.tld/" "Googlebot: Googlebot/2.1 (+http://www.google.com/bot.html)"
84.155.32.49 - - [28/Aug/2005:16:27:54 +0200] "GET /archiv/15677.html HTTP/1.1" 302 5 "http://deine-domain.tld/" "Googlebot: Googlebot/2.1 (+http://www.google.com/bot.html)"
84.155.32.49 - - [28/Aug/2005:16:28:26 +0200] "GET /archiv/15653.html HTTP/1.1" 302 5 "http://deine-domain.tld/" "Googlebot: Googlebot/2.1 (+http://www.google.com/bot.html)"
Anscheind spidert Google doch die ganzen Seiten... und seit wann zieht sich Google die CSS Datei ??? War das schon immer so mit der CSS ?

Obwohl
User-agent: *
Disallow: /archiv/
in der robots.txt steht ruft er sich die Seiten aus dem Archiv auf... nur warum ?

Könnte es am <meta name="robots" content="index,follow" /> im html File liegen ?


PS: archiv/15699.html wird per modrewrite auf eine outbound Datei umgeleitet...

platypus
PostRank 1
PostRank 1
Beiträge: 3
Registriert: 31.08.2005, 16:11

Beitrag von platypus » 31.08.2005, 16:15

Hallo,

die IP sieht mir aber nicht nach Google aus...

Grüße

platypus

Pseudo
PostRank 4
PostRank 4
Beiträge: 153
Registriert: 18.05.2005, 23:01

Beitrag von Pseudo » 31.08.2005, 16:24

Stimmt...

https://www.whois.sc/84.155.32.49 ist einer aus dem Telekom Pool

Edit: Hab mal jetzt 20 weitere Logfiles durchsucht... So wie es aussieht, zieht sich Google doch nicht die Daten aus dem Archiv!

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag