Mit der Robots.txt kann man den Suchmaschinen ja die Anweisung geben welche Ordner nicht gecrawelt und oder Indexiert werden dürfen doch kann man dort auch Seiten des Projektes angeben welche auf jeden Fall gecrawelt werden sollen.
Das mit dem NOINDEX kann man ja auch über die Metas steuern.
Doch bringt es was wenn nun die Links aus einer Sitemap auch als Link in die Robots.txt eingefügt werden, das die auf jeden Fall oder halt deutlich schneller sowie eventuell auch besser gerankt werden, oder wertet Google dieses unter Umständen als Spam?
Gibt es überhaupt sowas wie Robots.txt oder Sitemap Spam für die Suchmachschinen?
Sicher könnte man die robots.txt und die Sitemap zum Spammen nutzen. Das geht dann auch hundertprozentig so aus wie mit den Metatags die schon seit Jahren von Google nicht mehr supportet werden. Deswegen sieht Google die Sitemap nur als Hilfestellung an und mehr nicht. Die robots.txt ist nur zu deiner Sicherheit damit nicht irgendwelcher Mist gecrawlt wird. Prinzipiell sucht sich der Googlebot seinen Weg selbst.
Ich habe keinen wertvoll passenden Thread zu meiner Frage gefunden,
daher schreibe ich einmal hier weiter...
Ich habe Schwierigkeiten zu verstehen, wie ich mit den Webseiten umgehe,
die ich durch eine Robots.Txt hab spereen lassen.
Führt man, der Vollständigkeit halber in einer Sitemap auch die Unterseiten auf,
die man ja eigentlich durch die robots.txt gesperrt hat? Dies führt ja unweigerlich zu einer
Endlosschleife /Crawling Fehlern, aber führe ich diese nicht auf, erhalte ich ja auch einen Crawling Fehler.
Eine Sitemap ist kein Crawl-Befehl, sondern eine übersichtlichere Auflistung der verfügbaren Seiten, die das Crawling erleichtern, nicht aber erzwingen kann. Demnach kann man das Crawling auch dann über die robots.txt sperren, wenn die Seiten in der Sitemap aufgelistet sind.