Seite 1 von 1
Bestimmte Unterseiten per htaccess für Bots ausschliessen
Verfasst: 22.07.2008, 08:48
von ezln
Guten Morgen zusammen,
ich möchte einzelne/bestimmte Unterseiten für Bots per htaccess ausschliessen. Es sollten möglichst alle gängigen Bots berücksichtigt werden.
Die Unterseiten sollten aber für den "normalen" menschlichen Besucher noch sichtbar sein.
Ist dies möglich? Wenn ja, wie? Hatte das Ganze per robots.txt probiert, leider ohne Erfolg - die Seiten sind in den Suchergebnissen zu finden.
Vielen Dank und Grüße,
Frank
Re: Bestimmte Unterseiten per htaccess für Bots ausschliesse
Verfasst: 22.07.2008, 17:09
von Mork vom Ork
ezln hat geschrieben:ich möchte einzelne/bestimmte Unterseiten für Bots per htaccess ausschliessen. Es sollten möglichst alle gängigen Bots berücksichtigt werden.
Die Unterseiten sollten aber für den "normalen" menschlichen Besucher noch sichtbar sein.
Ist dies möglich? Wenn ja, wie?
Sofern die Bots über die Kennung oder IP identifizierbar sind, lässt sich das beim Apache mit mehreren
RewriteCond %{HTTP_USER_AGENT} ^Botkennung$ bzw.
Deny from 1.2.3.4 lösen. Du solltest …
Hatte das Ganze per robots.txt probiert, leider ohne Erfolg - die Seiten sind in den Suchergebnissen zu finden.
… aber erstmal klären, welche Suchmaschinen das sind. Ordentliche Suchmaschinen halten sich ausnahmslos an die robots.txt, in dem Falle wäre der Fehler daher in der robots.txt zu beheben.
robots.txt
Verfasst: 23.07.2008, 07:35
von ezln
Meine robots.txt sieht wie folgt aus:
Code: Alles auswählen
User-agent: *
Disallow: /newsletter/
Disallow: /haftungsausschluss/
Disallow: /impressum/
Trotzdem finden sich die Seiten newsletter, haftungsausschluss, impressum beispielsweise bei Google in den Suchergebnissen wieder.
Auch stand die robots.txt bereits vor den Seiten auf dem Server.
Re: robots.txt
Verfasst: 23.07.2008, 09:50
von Mork vom Ork
ezln hat geschrieben:Code: Alles auswählen
User-agent: *
Disallow: /newsletter/
Disallow: /haftungsausschluss/
Disallow: /impressum/
Trotzdem finden sich die Seiten newsletter, haftungsausschluss, impressum beispielsweise bei Google in den Suchergebnissen wieder.
Erscheinen die Ergebnisse mit oder ohne Seitentitel und -inhalt?
Die robots.txt-Einträge scheinen jedenfalls in Ordnung zu sein und sollten wie gewünscht example.com/newsletter/ etc. aussperren. Du kannst deine robots.txt mit
Googles Webmaster-Tools prüfen (siehe auch
https://www.google.de/support/webmaster ... swer=35237) und erhältst dort eine klare Aussage, ob Google gegebene URLs einliest oder nicht. Das sollte dann auch für andere Suchmaschinen gelten.
Falls allerdings nur die nackte URL ohne weitere Angaben (Seitentitel und Inhaltsauszug) in den Suchergebnissen erscheint, kannst du dagegen nichts machen. Diese URLs stehen im Index, weil auf sie von irgendeiner öffentlichen Seite verwiesen wird, jedoch, wie am Ergebnis zu sehen, ohne jegliche weitere Daten und dementsprechend mit einer Relevanz nahe des Nullpunkts, so dass sie eigentlich nur dann erscheinen, wenn man explizit nach dieser URL oder Stichwörtern daraus sucht und die Suche auf die Domain beschränkt.
Dass eine ausgesperrte URL nicht mit Inhalt in den Suchergebnissen erscheinen sollte, ist klar, aber sich wegen dieser nackten URL Gedanken zu machen, ist IMHO unnötig.
Re: robots.txt
Verfasst: 23.07.2008, 15:52
von ezln
Mork vom Ork hat geschrieben:Erscheinen die Ergebnisse mit oder ohne Seitentitel und -inhalt?
Ja, nur die URL... die blaue Zeile von Google...