Seite 1 von 1

Warum ist diese Seite im Index?

Verfasst: 05.10.2006, 18:57
von AndreasR
Hallo,

https://www.hpv.org/shop/gebraucht/ steht im Index (einfach nach HPV gebraucht suchen).
Aber https://www.hpv.org/robots.txt sagt:

Code: Alles auswählen

User-agent: *
Disallow: *
[...]
DisAllow: /shop/
Eigentlich dürfte wegen der zweiten Zeile in der Datei die gesamte Site nicht im Index sein, warum ist sie es trotzdem?

Gruß, Andreas

Verfasst:
von

Verfasst: 05.10.2006, 18:59
von blinkster
Nein, ist nicht korrekt. Die zweite Zeile müsste lauten:

Disallow: /

Mit diesem Befehl wird die ganze Seite gesperrt.
Bei Disallow sind keine wildchars (? oder *) erlaubt.

Verfasst: 05.10.2006, 19:22
von AndreasR
Hallo Blinkster,
blinkster hat geschrieben:Die zweite Zeile müsste lauten:

Disallow: /
Aber die letztgenannte Zeile müsste doch die genannte URL für Bots sperren...

Gruß, Andreas

Verfasst:
von
SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Verfasst: 05.10.2006, 19:51
von blinkster
Zeige am besten mal die gesamte robots.txt
Die ist ja jetzt schon mit Fehlern übersäht.

Verfasst: 05.10.2006, 20:02
von AndreasR

Code: Alles auswählen

# robots.txt zu http://www.hpv-ev.de/

User-agent: *
Disallow: *

Disallow: /bilder/
Disallow: /cgi-bin/
Disallow: /counter/
Disallow: /download/
Disallow: /kalender/
Disallow: /mitglied/
Disallow: /tmp/
Disallow: /_*/
Disallow: /footer.php
Disallow: /header.php
Disallow: /info.php
Disallow: /fehler.php
Disallow: /kontakt.php
Disallow: /mail.php
DisAllow: /event/
DisAllow: /home/
DisAllow: /links/
DisAllow: /news/
DisAllow: /scene/
DisAllow: /shop/
DisAllow: /technik/
DisAllow: /verein/

Verfasst: 05.10.2006, 20:03
von Fridaynite
Am besten hier abschreiben:
https://www.robotstxt.org/wc/exclusion.html

Da sind dann wenigstens keine Fehler drin. Alles andere, was sonst so geschrieben wird ist immer mit Vorsicht zu geniessen.

Verfasst: 05.10.2006, 20:17
von blinkster
Also zumindest die Einträge mit den Wildchars, bis auf User-Agent sind falsch und sollten gelöscht werden!

Was aber interessant wäre: Wird die robots case insensitive gecrawlt? Also nicht nur bei den Verzeichnissen, sondern auch bei den Befehlen? -> DisAllow

Verfasst: 05.10.2006, 20:23
von AndreasR
Hallo,
blinkster hat geschrieben:Also zumindest die Einträge mit den Wildchars, bis auf User-Agent sind falsch und sollten gelöscht werden!

Was aber interessant wäre: Wird die robots case insensitive gecrawlt? Also nicht nur bei den Verzeichnissen, sondern auch bei den Befehlen? -> DisAllow
Offiziell muss es "Disallow" heißen. Crawler dürfen also case insensitive sein.

Verboten ist die Leerzeile, denn sie kennzeichnet das Ende des Datensatzes. Eigentlich müsste nach einer Leerzeile wieder "User-agent..." kommen oder die Datei zu Ende sein. Die Bots werden vermutlich "Disallow: *" ignorieren und danach gar nichts mehr auswerten.

Im Dunkeln bleibt die Intention der Autoren, denn die Seiten sind für die Zielgruppe durchaus nützlich und der einizge Grund, sie aus dem Index zu nehmen, wären Traffickosten beim Provider. Dann kann man aber gleich die Seiten löschen...

Gruß, Andreas