Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

robots.txt wird völlig ignoriert

Dieses Forum ist für Informationen über Google gedacht (Ausser PageRank!).
Neues Thema Antworten
agentfox
PostRank 2
PostRank 2
Beiträge: 43
Registriert: 15.05.2006, 23:27

Beitrag von agentfox » 19.11.2007, 21:37

auf einer site, die allein entwicklungszwecken dient und deswegen nicht indexiert werden darf, haben wir eine robots.txt wie folgt:

# /robots.txt file for https://www.domain.de/

User-agent: *
Disallow: /

google schert sich einen sch...dreck um die robots.txt und hat schon tausende seiten im index!
werden jetzt per .htaccess ein pw davorsetzten...
aber wozu dann überhaupt noch eine robots.txt ? jemand ähnliches bei google erlebt?

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

new_newbie
PostRank 6
PostRank 6
Beiträge: 413
Registriert: 17.03.2006, 18:48
Wohnort: Weit weg

Beitrag von new_newbie » 20.11.2007, 01:46

jemand ähnliches bei google erlebt?
jup.

Deswegen geb ich google immer noch eine Extra-Einladung:

Code: Alles auswählen

User-agent: *
Disallow: /bla-order/

User-agent: googlebot
Disallow: /bla-ordner/
Zusätzlich noch in den robot-metas no-index und no-follow reingeklatscht und alle links mit dem attribut rel="nofollow" versehen.

Damit kann man sich die (google-)spider ganz gut vom leib halten.

HBurk
PostRank 6
PostRank 6
Beiträge: 451
Registriert: 11.04.2006, 13:14
Wohnort: Süd Hessen

Beitrag von HBurk » 20.11.2007, 07:40

zur Not in der .htaccess folgendes einfügen :

RewriteCond %{HTTP_USER_AGENT} ^googlebot
RewriteRule .* - [F,L]

dann bekommt der bot eine "403" Seite angezeit :idea:

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


marguardth
PostRank 3
PostRank 3
Beiträge: 96
Registriert: 27.10.2007, 12:27
Wohnort: Tübingen

Beitrag von marguardth » 20.11.2007, 08:48

den ganzen aufwand, der dir bisher beschrieben wurde, kannst du für Slurp, Teoma, ia_archiver, msnbot (the list goes on ...) getrost wiederholen. googlebot ist nämlich nicht der einzige, der behauptet, sich an den robot exclusion standard zu halten und es dann defakto nicht tut.
es gibt nicht wenige bot-betreiber, die sich um '*' nicht kümmern und wollen, dass ihr bot namentlich in der robots.txt erwähnt wird.

mit einem passwortschutz per .htaccess oder einer langen liste von RewriteConds, wie sie dir HBurk beschrieben hat, bist du dagegen auf der sicheren seite.

HBurk
PostRank 6
PostRank 6
Beiträge: 451
Registriert: 11.04.2006, 13:14
Wohnort: Süd Hessen

Beitrag von HBurk » 20.11.2007, 10:32

mit einem passwortschutz per .htaccess oder einer langen liste von RewriteConds, wie sie dir HBurk beschrieben hat, bist du dagegen auf der sicheren seite.
hier wäre die umgekehrte Abfrage wohl Sinnvoller in dem nur ein Phantasie- bot zugelassen wird und alle anderen ausgesperrt werden :

RewriteCond %{HTTP_USER_AGENT} !^my-phantasy-bot
RewriteRule .* - [F,L]

!^ (wenn nicht)

:roll:

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag