Google missachtet robots.txt?

Beitrag von **JOO** » 17.12.2004, 19:56

Kann mal jemand überprüfen ob das so stimmt, weil Google beachtet dies anscheinend nicht:

robots.txt
User-agent: *
Disallow: /druck.php
Disallow: /forum/
Disallow: /index.php

Danke...

von **Anzeige von ABAKUS** »

Hochwertiger Linkaufbau bei ABAKUS:

Google-konformer Linkaufbau
nachhaltiges Ranking
Linkbuilding Angebote zu fairen Preisen
internationale Backlinks

Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Beitrag von **firestarter** » 17.12.2004, 20:02

du kannst nur verzeichnisse ausschlissen und keine einzelnen Dateien.

Beitrag von **JOO** » 17.12.2004, 20:05

firestarter hat geschrieben:du kannst nur verzeichnisse ausschlissen und keine einzelnen Dateien.

Achso ok, habe ich gar nicht gewusst

.

Danke
JOO

von **Anzeige von ABAKUS** »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002

persönliche Betreuung
individuelle Beratung
kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.

Beitrag von **bull** » 17.12.2004, 20:06

du kannst nur verzeichnisse ausschlissen und keine einzelnen Dateien.

Das ist m.E. nicht ganz zutreffend, Frank.
https://www.robotstxt.org/wc/exclusion-admin.html
https://www.google.de/webmasters/faq.html

Beitrag von **Jojo** » 17.12.2004, 21:11

In Bezug auf Verzeichnisse hatte ich bisher keine Probleme mit dem Ausschliessen in der robots.txt.

Auf das Ausschliessen von Dateien habe sicherheitshalber verzichtet, da ich hier im Forum gelesen hatte, dass das nicht funktioniert.

Beitrag von **Garfield** » 17.12.2004, 21:13

Das funktioniert bei mir mit Google insoweit, als zwar die Seiten im Index sind, aber ohne Beschreibung und Inhalt, also nur Dateiname.

Google weiß also nur, daß es die ausgeschlossene Seite gibt.

Beitrag von **Fox Mulder** » 17.12.2004, 21:15

Jojo hat geschrieben:Auf das Ausschliessen von Dateien habe sicherheitshalber verzichtet, da ich hier im Forum gelesen hatte, dass das nicht funktioniert.

hat G doch x-fach selber in der robots.txt :

https://www.google.de/robots.txt

Gruss

Beitrag von **bull** » 17.12.2004, 21:31

Das funktioniert bei mir mit Google insoweit, als zwar die Seiten im Index sind, aber ohne Beschreibung und Inhalt, also nur Dateiname.

Völlig normales Verhalten. URL ist im Index, aber nicht gecrawlt.

Beitrag von **firestarter** » 17.12.2004, 22:11

hmmm, ok

hatte ich mal mit einem Forum und der members.php versucht, hatte leider nicht funktioniert.

Beschreibung war zwar keine da allerdings wurden die profile als Backlink bei anderen angezeigt.

Seltsam -naja egal.

Gruss Frank

Beitrag von **Mario670** » 17.12.2004, 23:06

Also in den xt-commerce Shops klappt das nicht, da spidert er die Dateien, trotz der Robots.txt

Beitrag von **dexter** » 18.12.2004, 13:37

ich benutze die robots.txt seit ein paar monaten um dynamische urls (präfix z.b. "/index.htm?") auszuschliessen. das klappt wunderbar, der googlebot spidert nur noch die "statischen" links. die urls mit parametern sind zwar noch im index (auch meist ohne text), aber ich vermute nur noch als überbleibsel von vorher. ich hoffe, daß diese nach und nach automatisch rausfliegen.

@mario670: check doch mal, wann/ob google sich die robots.txt zuletzt geholt hat -- evtl. falsche zugriffsrechte?

Beitrag von **bugscout** » 18.12.2004, 14:12

moin moin,

schönes beispiel für robots.txt und url-hijacking,

da habe ich doch glatt meine testdomain gekapert.

https://www.google.de/search?q=allinurl ... 1&filter=0

trotz

Disallow: /cgi-bin/
Disallow: /cgi-bin/outbound.pl?*$

manchmal klappt es und manchmal klapperts es nur.

werde mein redirect-script jetzt mal so umbauen,
das ne abfrage nach suchmaschine reinkommt.

wo dann der text "verpisst euch hier" ausgegeben wird,
mit link auf die robots.txt.

grüsse

Beitrag von **dexter** » 18.12.2004, 14:48

bugscout, dateimuster (*) sind kein offizieller bestandteil der exclusion-richtlinien, und das $-zeichen ist ein regex-code. evtl. verwirrst du den bot dadurch. besser nur den präfix einsetzen -- bzw. rausnehmen, der erste disallow ist eh ein catchall für das cgi-bin.

Beitrag von **bugscout** » 18.12.2004, 15:05

moin moin,

nur cgi-bin bin ich schon kräftig mit auf die schnauze gefallen in bezug auf url-hijacking.

das funktioniert bei anderen dommains eigentlich ganz gut nach besagtem muster.

vielleicht hat der bot sich ja auch einfach irgendwo durch die hintertür ohne
robots.txt auf den server geschlichen.

ich teste noch in bezug auf sichere lösung.
mit oder ohne *,
mit oder ohne $

grüsse

Beitrag von **schorsch** » 18.12.2004, 17:08

ja sag mal bescheid wenn du irgendwelche ergebnisse hast. was ich auch empfehlen würde, wäre gleichzeitig noch per java script auf die outbound.pl datei zu linken. hält bestimmt auch noch a weng was ab. die frage ist nur wie ich es am besten mache, dass der bot das javascript nicht verfolgt.

gruss

schorsch