Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

robots.txt Disallow vs. noindex

Ajax, Hijax, Microformats, RDF, Markup, HTML, PHP, CSS, MySQL, htaccess, robots.txt, CGI, Java, Javascript usw.
Synonym
PostRank 10
PostRank 10
Beiträge: 3708
Registriert: 09.08.2008, 02:55

Beitrag von Synonym » 08.03.2011, 09:32

@Melegrian
Lese bitte bei Deinem Link mal den Absatz hier:
Zwar wird der Content von Seiten, die durch die Datei "robots.txt" blockiert sind, von Google weder gecrawlt noch indexiert, möglicherweise erfolgt jedoch dennoch eine Indexierung der URLs, falls diese auf anderen Webseiten gefunden werden.
Wenn Google einem externen Verweis folgt und somit auf Deine Seite kommt, dann wurde in dem Moment die robots.txt gar nicht beachtet. Die wird erst bei den direkten oder internen Aufrufen berücksichtigt.

Externer Link auf Seite 2 -> könnte aufgenommen werden -> interner Link zu 3, 4 und 5. Wird nicht aufgenommen, da blockiert.

und nun den Hinweis darunter:
Sollen die Inhalte einer Seite nie dem Google-Webindex hinzugefügt werden, obwohl von anderen Websites auf sie verwiesen wird, muss ein "noindex"-Meta-Tag verwendet werden. Beim Crawlen der Seite erkennt der Googlebot das "noindex"-Meta-Tag und schließt die URL aus dem Index aus.
Dass die wieder verschwinden ist teilweise richtig, aber eben nur teilweise. Bei jedem neuen Besuch über externe Links werden sie wieder aufgenommen um dann irgendwann wieder entfernt zu werden. Also warum dieses Hin und Her, wenn man gleich noindex nehmen kann. Zudem ist es ja noch immer der Punkt mit den internen Verlinkungen und externen Backlinks.

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Melegrian
PostRank 10
PostRank 10
Beiträge: 3170
Registriert: 30.01.2005, 12:36

Beitrag von Melegrian » 08.03.2011, 10:01

Na gut, um es einfacher auszudrücken. Der Gogelbot wird jedem Link folgen, den er findet und wird versuchen den Inhalt einer Datei zu crawlen, insofern diese kein Meta-Tag mit noindex enthält. Somit wird die URL der Seite erst einmal indexiert. Beim nächsten Besuch stellt der Bot dann fest, dass die Seite über die robots.txt gesperrt ist und wird diese nicht mehr crawlen. Das führt dazu, dass die URL der Seite zwar erst einmal für vier bis acht Wochen in den Ergebnissen auftaucht, aber ohne Description dort erscheint und danach wieder aus dem Index verschwindet.

Die Kritik ist berechtig, wenn es sich um einen Seite handelt, die extern verlinkt wurde, dann könnte das zu einem ständigen Hin und Her führen, auf das man durch einen Meta-Tag mit noindex verzichten könnte. Bei meinen Seiten bin ich mir relativ sicher, dass die "Blätterseiten" keiner verlinken würde, somit ergab sich dieses Problem für mich zumindest bisher noch nicht. Es könnte aber in anderen Fällen zu einem Problem werden.

Synonym
PostRank 10
PostRank 10
Beiträge: 3708
Registriert: 09.08.2008, 02:55

Beitrag von Synonym » 08.03.2011, 10:41

Jep, das siehst Du richtig und so kann man es auch sagen :-)

Auf die robots.txt würde ich mich nie verlassen. Ich nutze die nur für Dinge, bei denen Meta nicht möglich oder zu umständlich ist.

Es spricht aber nichts dagegen, sowohl disallow als auch noindex zu nehmen. Dann kommen die auch nicht in den Index. Wenn die aber schon drinnen sind, dann dauert es aber sehr viel länger bis die wieder verschwinden.

Disallow würde verhindern, dass Google überhaupt intern darauf zugreift und noindex, falls Google "von außen" kommt.

Meine Meinung:
"noindex" ist besser als "noindex und disallow", das ist aber besser als nur "disallow". Weil wie gesagt, es geht ja auch um das Folgen von Links. Wenn Deine Produkte nur von Seite 2 und 3 verlinkt sind, die Seiten aber ein "disallow" haben, dann besucht Google die eigentlich nicht, folglich auch nicht den internen Links zu den Produkten.

Home -> Kategorie (disallow) -> Produkt
: Produkt wird normalerweise nicht gefunden, da Kategorie nicht beachtet wird.

Home -> Kategorie (noindex) -> Produkt
: Produkt wird gefunden, Kategorie kommt nicht in den Index