Seite 1 von 1
robots.txt dateien ausschließen und ranking
Verfasst: 30.09.2004, 07:53
von Straddi
Hallo,
Ich habe einige Dateien die für die Suche in SUMAS nicht relevant sind (z.B. Passwort vergessen - ca. 20 Dateien).
Wenn ich diese in der robots.txt über
Disallow:
ausschließe , macht das Sinn oder lässt man das besser.
Kann es passieren, dass ein Bot vor einer zu grossen robots.txt kapituliert unjd einfach wieder geht und darüber dann dass page Rank bei GOOGLE leidet?
Gruss Straddi
Verfasst: 30.09.2004, 08:45
von bull
kapituliert
Normalerweise nicht, sie sollte allerdings nicht aussehen wie diese von einer
deutschen sogenannten Eliteuniversität, welche auch Informatiker ausbildet. Ich würde da meine Hand nicht ins Feuer legen.
PageRank: Sind mir keine Auswirkungen bekannt, auch nicht auf SERPs
Es empfiehlt sich die Definition des robots.txt - Standards vorher zu lesen und anschließend zu validieren, z.B. mit
https://www.searchengineworld.com/cgi-b ... tcheck.cgi
Verfasst: 30.09.2004, 09:39
von Straddi
Danke für Antwort
Es empfiehlt sich die Definition des robots.txt - Standards vorher zu lesen und anschließend zu validieren
wird gemacht
Gruss Straddi
Verfasst: 30.09.2004, 11:58
von wbartl
Ist eigentlich Allow in einer robots.txt erlaubt?
Der hier angeführte robot-checker meint ja NEIN, aber selfhtml gibt als Beispiel folgendes an:
# robots.txt zu
https://www.mein-name.de/
User-agent: UniservalRobot/1.0
User-agent: mein-Robot
Disallow: /quellen/dtd/
Allow: /quellen/dtd/index.html
Was ja sehr praktisch wäre, man schließt ein ganzes Verzeichnis aus und erlaubt nur einzelne Dateien
Verfasst: 30.09.2004, 12:53
von bull
Finally, some crawlers now support an additional field called "Allow:", most notably, Google. As its name implies, "Allow:" lets you explicitly dictate what files/folders can be crawled. However, this field is currently not part of the "robots.txt" protocol, so my recommendation is to use it only if absolutely needed, as it might confuse some less intelligent crawlers.
Quelle
Im Standard scheint es also nicht drin zu sein, aber mindestens Googlebot unterstützt "Allow:". Siehe auch
https://www.google.com/webmasters/faq.html und besonders
https://www.webmasterworld.com/forum93/15.htm , was die Validität angeht.
Selbstverständlich linke ich auch weiterhin zu Webmasterworld, sofern es sinnvoll erscheint