Seite 1 von 1

google beachtet robots.txt nicht?

Verfasst: 11.01.2006, 00:40
von florian.liebe
Hi,
irgendwie achtet google nicht auf meine robots.txt.
Ich generiere in meinem Forum per mod_rewrite statische Links
und habe daher die viewtopic.php wie folgt vom Indexieren ausgeschlossen:

Für Google

Code: Alles auswählen

User-agent: Googlebot
Disallow: /viewtopic.php
Für andere Suchmaschinen mit

Code: Alles auswählen

User-agent: *
Trotsdem ist der Suchindex mit Links zu für Google sowie Benutzer unbrauchbaren viewtopic.php's zugespammt.

Gibt es noch einen weg,
Google zu "verbieten" diese Seiten zu Indexieren?

MfG, Flo

Verfasst:
von

Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

google beachtet robots.txt nicht?

Verfasst: 11.01.2006, 00:55
von Chris2005
Haben die Links eine Description oder taucht nur die URL auf?

Google hat die Angewohnheit alle Links, die der Bot findet in den Index zu packen. Auch nichtindizierte bzw. durch robots.txt gesperrte.

google beachtet robots.txt nicht?

Verfasst: 11.01.2006, 00:57
von Southmedia
Ich habe dazu mal was in meinem Blog geschrieben: "Google-Missverständnisse: “im Index” != “gespidert”" - https://betamode.de/2005/09/25/google-m ... gespidert/

Verfasst:
von

Verfasst: 11.01.2006, 02:55
von florian.liebe
Hi,
also es taucht nur der Titel auf.
Wie ich im Blog gelesen habe also ein für Google "Normales" Verhalten.
Allerdings findet man auch bei normalen Keywordabfragen bis zu 40 solcher Links.

Müsste es nicht eine Möglichkeit geben, den GoogleBot per .htaccess von den Dateien fernzuhalten?

Einen 403 (Forbidden) sollte er ja nicht mit in den Index aufnehmen.
Obwohl - bei google ist alles möglich... :D

MfG, Flo

google beachtet robots.txt nicht?

Verfasst: 11.01.2006, 04:38
von Chris2005
Google fasst die URLs ja gar nicht erst an... Der Bot findet die Links auf Deinen Seiten und packt sie in den Index... Da kannst Du mit der .htaccess nix machen!

google beachtet robots.txt nicht?

Verfasst: 11.01.2006, 21:17
von ad_prof
zu dem thema hab ich auch was nettes gefunden!!!

# disallow all agents
# 8/31/2005 - Allow googlebot
#User-agent: Googlebot
#Disallow:
#
#User-agent: *
#Disallow: /

# 11/03/2005
### BEGIN FILE ###
#
# allow-all
#
#
# The use of robots or other automated means to access the eBay site
# without the express permission of eBay is strictly prohibited.
# Notwithstanding the foregoing, eBay may permit automated access to
# access certain eBay pages but soley for the limited purpose of
# including content in publicly available search engines. Any other
# use of robots or failure to obey the robots exclusion standards set
# forth at <https://www.robotstxt.org/ wc/ exclusion.html> is strictly
# prohibited.
# v3
#

User-agent: *
Disallow: /help/confidence/
Disallow: /help/policies/
Disallow: /disney/

### END FILE ###


das ist die robots.txt von cgi.ebay.de ( https://cgi.ebay.de/robots.txt )

und das macht google daraus:
https://www.google.de/search?q=inurl:cg ... =&filter=0

11.000.000 indizierte seiten!!!

es kommt noch schlimmer. ich bin erst darauf aufmerksam geworden nachdem ich gestern nacht eine dieser seiten zu einem starken key unter den ersten 10 ergebnissen gefunden habe.

ich finde es alleine schon sehr dreist das google expliziet angesprochen werden möchte und das
User-agent: *
Disallow: /
nicht ausreicht um den googlebot zu stoppen...

greetz

ad_prof

p.s.: kann mir jemand sagen was das hier soll?
8/31/2005 - Allow googlebot

google beachtet robots.txt nicht?

Verfasst: 11.01.2006, 21:19
von Chris2005
Wo ist das Problem? Zeilen mit # sind auskommentiert!

google beachtet robots.txt nicht?

Verfasst: 11.01.2006, 22:17
von ad_prof
oups peinlich....
du hast natürlich recht.