Seite 1 von 1
80legs ignoriert die robots.txt?
Verfasst: 06.01.2012, 14:01
von CyberNibbler
Ich habe per robots.txt das Impressum ausgeschlossen.
Laut meinen Accesslogs hat der Google-Bot auch nie darauf zugegriffen.
Jedoch greift der 80legs Crawler auf das Impressum zu. (
https://www.80legs.com/webcrawler.html )
Laut deren Webseite sollte der sich allerdings an die robots.txt halten. Die robots.txt hat er auf jeden Fall auch abgefragt.
Sollte ich mir jetzt sorgen machen das dass Impressum bald irgendwo auftaucht?

Verfasst:
von
Content Erstellung von
ABAKUS Internet Marketing
Ihre Vorteile:
- einzigartige Texte
- suchmaschinenoptimierte Inhalte
- eine sinnvolle Content-Strategie
- Beratung und Umsetzung
Jetzt anfragen:
0511 / 300325-0
Re: 80legs ignoriert die robots.txt?
Verfasst: 06.01.2012, 14:44
von Malte Landwehr
CyberNibbler hat geschrieben:Sollte ich mir jetzt sorgen machen das dass Impressum bald irgendwo auftaucht?

Wenn du davor Angst hast, darfst du nichts in Netz stellen. Man könnte ja auch manuell das Impressum speichern und es später irgendwo auftauchen lassen.
Sperr 80legs doch einfach über die .htaccess.
edit:
Sorry bei sowas gehe ich schon davon aus, dass das Impressum in einem Bild versteckt wird^^
Re: 80legs ignoriert die robots.txt?
Verfasst: 06.01.2012, 16:34
von CyberNibbler
Malte Landwehr hat geschrieben:Man könnte ja auch manuell das Bild speichern und es später irgendwo auftauchen lassen.
Welches Bild? o.O
Okay, ich werde den Crawler wohl über den User-Agent aussperren. Auch eine Lösung. Danke!
Re: 80legs ignoriert die robots.txt?
Verfasst: 10.01.2012, 10:45
von Hasenhuf
CyberNibbler hat geschrieben:Sollte ich mir jetzt sorgen machen das dass Impressum bald irgendwo auftaucht?

Steht dein Impressum auf "noindex"?
Verfasst: 10.01.2012, 13:58
von CyberNibbler
Ja, mittels folgendem Code in der Seite.
Aber was solls. Ich mag nur diese ganzen Content-Crawler die vielleicht auch noch mit Impressums-Daten Geld machen wohlen nicht. -_-