Seite 1 von 1
Google indexiert obwohl in robots.txt ausgeschlossen
Verfasst: 13.04.2004, 10:12
von sean
das Thema war glaub ich schon mal hier, hab aber über die Suche nichts finden können.
Habe für ein Projekt folgende Infos in der Robots.txt.
User-agent: *
Disallow: /red.php
Disallow: /print.php
Disallow: /mailto.php
Jetzt sehe ich heute morgen, dass alle print.php und mailto.php Dokumente indexiert wurden. Das sind praktisch nur doubletten über eine dyn. funktion zum drucken und weiterleiten. Also doppel Content.
Meine Frage: Ich hab die Robots.txt auf windows erstellt. Ich hörte mal, dass es da Probleme gegben kann mit dem Zeilenumbruch wenn die Datei danach auf einen Linux Rechner gespielt wird. Kann es daran liegen, oder muß ich damit leben dass Google sich nicht dran hällt.
sean
Verfasst:
von
Hochwertiger Linkaufbau bei ABAKUS:
- Google-konformer Linkaufbau
- nachhaltiges Ranking
- Linkbuilding Angebote zu fairen Preisen
- internationale Backlinks
Wir bieten
Beratung und
Umsetzung.
Jetzt anfragen:
0511 / 300325-0
Verfasst: 13.04.2004, 10:41
von viggen
Seit wann hast du die robots.txt in dieser Form?
Bedenken Sie jedoch, dass die Änderung der Datei robots.txt auf dem Server oder das Hinzufügen von "META"-Elementen nicht sofort in den Suchergebnissen von Google berücksichtigt werden. Wahrscheinlich wirken sich die von Ihnen vorgenommenen Änderungen erst nach einer Weile auf den Web-Index von Google aus.
via
Google
mfg
viggen
Re: Google indexiert obwohl in robots.txt ausgeschlossen
Verfasst: 13.04.2004, 10:42
von IT-Knecht
sean hat geschrieben:
Jetzt sehe ich heute morgen, dass alle print.php und mailto.php Dokumente indexiert wurden.
Hast Du das gesehen im Logfile oder in den Serps?
Werden die Docs in den Serps mit Beschreibung und Cache angezeigt?
Wenn in den Serps nur der Link steht, dann kann es sich um die Information aus einen Link von nicht gesperrten Seiten handeln.
Grüße,
Martin
Verfasst: 13.04.2004, 12:06
von sean
@viggen
bevor das Web online war hab ich die Robots dort abgelegt. Also von Anfang an.
@it-knecht
beides. Heute Nacht war Google da zum crawlen, heute morgen war das bei Google.de online. Die Beschreibungen werden nicht angezeigt, nur ein Link.
sean
Verfasst: 13.04.2004, 12:13
von bugscout
moin moin
sowas baut man am besten mit <A HREF="#" onClick="window.open.... ein
sonst passiert das
grund:
IT-Knecht,
Wenn in den Serps nur der Link steht, dann kann es sich um die Information aus einen Link von nicht gesperrten Seiten handeln.
grüsse
Verfasst: 13.04.2004, 12:16
von IT-Knecht
sean hat geschrieben:
@it-knecht
beides. Heute Nacht war Google da zum crawlen, heute morgen war das bei Google.de online. Die Beschreibungen werden nicht angezeigt, nur ein Link.
Hat der Bot wohl die Seiten der ersten gesperrten Ebene noch gelesen,
aber nicht mit in den Index aufgenommen.
Die URL der Seiten kann ja aufgenommen werden,
da sie auch auf freigegebenen Seiten steht.
Grüße,
Martin
Verfasst: 13.04.2004, 12:24
von sean
ah, so hab ich das jetzt nicht gesehen. Also du meinst, dass die URls bei Google erhalten bleiben, aber keinen Inhalten zugeordnet werden?
sean
Verfasst: 13.04.2004, 12:29
von manute
ja das meint er. die urls sind im index, aber ohne inhalt, also werden sie auch nicht gefunden, also kein problem für dich.
Verfasst: 13.04.2004, 12:31
von IT-Knecht
sean hat geschrieben:Also du meinst, dass die URls bei Google erhalten bleiben, aber keinen Inhalten zugeordnet werden?
Exakt. So ist es zumindest bei mir. Teste das einfach anhand von Sitename und spezifischer Suchworte aus den gesperrten Seiten.
Grüße,
Martin
Verfasst: 13.04.2004, 12:51
von sean
die Seiten enthalten die Inhalte ohne Navigation zum drucken und vermailen. Ich hoffe dass Du recht hast und die Inhalte nicht indexiert werden, weil es ja doubletten wären.
Allerdings hat sich dadurch die Anzahl meiner indexierten Seiten verdoppelt. Das könnte evtl. positiv sein

Mal sehn ob die drin bleiben.
sean
Verfasst: 14.04.2004, 01:16
von symantec
Wenn Suchmaschinen in der Datei Dinge finden die sie nicht interpretieren können...dann haut der Spider ab und Deine Angaben sind nun ja wirklich lächerich.
Verfasst: 14.04.2004, 08:03
von sean
@symantec
was ist lächerlich?
sean
Verfasst: 15.04.2004, 08:37
von sean
so, Google hat die Seiten die ich gesperrt hatte ind er robots.txt wieder aus dem Index verbannt. das ging aber flott.
sean
Verfasst: 15.04.2004, 23:40
von sean
das ist ja fürhcterlich im Moment. Alle 5 Studen sin die Seietn wieder dri n, dann wieder raus. Ebenso mit den Backlinks? Den ganzen Tag heute. Scheint noch wa sim gange.
sean
[Gott bin ich müde]