Wie robtex aussperren?

Beitrag von **Agent Orange** » 16.07.2007, 13:22

Hallo,

robtex erstellt nette Listen, auf denen ein großer Teil meiner Domains zu sehen ist. (xx hosts sharing ip, mailserver for xx domains) Wie kann man dem robtex-Crawler das Lesen der eigenen Seiten mittels htaccess oder robots.txt verbieten?

von **Anzeige von ABAKUS** »

Beitrag von **WilliWusel** » 16.07.2007, 14:38

Steht doch auf der Seite:

robot-info:
this utility crawls sites using the useragent "robtexbot", mainly to get title and meta info. the referer-tag is set to the url of the page displaying the information. it currently only fetches the index-page from every domain, so it does not support the robots.txt - standard

Demnach per robots.txt, falls sich der Spider zumindest rudimentär an Standards hält:

User-agent: robtexbot
Disallow: /

Beitrag von **Agent Orange** » 16.07.2007, 16:38

it currently only fetches the index-page from every domain, so it does not support the robots.txt - standard

Das klang für mich so, als ob der Crawler sich überhaupt nicht an die robots.txt hält.

Beitrag von **WilliWusel** » 17.07.2007, 07:47

Agent Orange hat geschrieben:Das klang für mich so, als ob der Crawler sich überhaupt nicht an die robots.txt hält.

Bin auch nicht sicher, das kannst Du nur durch Ausprobieren herausfinden. Wenn diese Methode versagt, musst Du die IP des Bots ermitteln und per .htaccess sperren.

Beitrag von **melittaman** » 17.07.2007, 14:24

Agent Orange hat geschrieben:
it currently only fetches the index-page from every domain, so it does not support the robots.txt - standard
Das klang für mich so, als ob der Crawler sich überhaupt nicht an die robots.txt hält.

Es handelt sich in dem Sinne nicht um einen herkömmlichen Webcrawler/Bot.
Unter anderem werden Daten der Domain Nameserver ausgewertet. Dadurch dass man die DNS und Routinginformationen nun einmal braucht, kann man seine Seiten auch schlecht verbergen, sofern Sie alle auf einem Server mit einer IP liegen.

Beitrag von **Agent Orange** » 18.07.2007, 07:38

Also nichts zu machen?

Beitrag von **melittaman** » 18.07.2007, 22:44

Agent Orange hat geschrieben:Also nichts zu machen?

Mussu Fragen die Cheffe von dem robtex Vereine!

Beitrag von **Agent Orange** » 06.08.2007, 16:08

melittaman hat geschrieben:Mussu Fragen die Cheffe von dem robtex Vereine!

Der sitzt in Schweden und hat keine E-Mail-Adresse zur Kontaktaufnahme angegeben. Ich habe zwar eine Mail an die üblichen Verdächtigen (webmaster@robtex.com, info@robtex.com, robert@robtex.com, olsson@robtex.com, mail@robtex.com, contact@robtex.com... ect.) gesendet, aber immer eine Fehlermeldung zurückbekommen.

Hat noch jemand eine Idee?

Beitrag von **Manny** » 06.08.2007, 20:00

versuch mal:

robban (at) robtex

Beitrag von **Agent Orange** » 07.08.2007, 05:58

Danke, das war die richtige Kontaktadresse. Derzeit ist der Webspider laut Domain-Inhaber nicht aktiv. Möglicherweise wird die robots.txt unterstützt, sobald der Webspider wieder aktiviert wird.