Seite 1 von 1

robots.txt dateien ausschließen und ranking

Verfasst: 30.09.2004, 07:53
von Straddi
Hallo,

Ich habe einige Dateien die für die Suche in SUMAS nicht relevant sind (z.B. Passwort vergessen - ca. 20 Dateien).

Wenn ich diese in der robots.txt über

Disallow:

ausschließe , macht das Sinn oder lässt man das besser.

Kann es passieren, dass ein Bot vor einer zu grossen robots.txt kapituliert unjd einfach wieder geht und darüber dann dass page Rank bei GOOGLE leidet?

Gruss Straddi

Verfasst:
von

Verfasst: 30.09.2004, 08:45
von bull
kapituliert
Normalerweise nicht, sie sollte allerdings nicht aussehen wie diese von einer deutschen sogenannten Eliteuniversität, welche auch Informatiker ausbildet. Ich würde da meine Hand nicht ins Feuer legen.
PageRank: Sind mir keine Auswirkungen bekannt, auch nicht auf SERPs

Es empfiehlt sich die Definition des robots.txt - Standards vorher zu lesen und anschließend zu validieren, z.B. mit https://www.searchengineworld.com/cgi-b ... tcheck.cgi

Verfasst: 30.09.2004, 09:39
von Straddi
Danke für Antwort
Es empfiehlt sich die Definition des robots.txt - Standards vorher zu lesen und anschließend zu validieren
wird gemacht

Gruss Straddi

Verfasst: 30.09.2004, 11:58
von wbartl
Ist eigentlich Allow in einer robots.txt erlaubt?

Der hier angeführte robot-checker meint ja NEIN, aber selfhtml gibt als Beispiel folgendes an:

# robots.txt zu https://www.mein-name.de/

User-agent: UniservalRobot/1.0
User-agent: mein-Robot
Disallow: /quellen/dtd/
Allow: /quellen/dtd/index.html

Was ja sehr praktisch wäre, man schließt ein ganzes Verzeichnis aus und erlaubt nur einzelne Dateien

Verfasst: 30.09.2004, 12:53
von bull
Finally, some crawlers now support an additional field called "Allow:", most notably, Google. As its name implies, "Allow:" lets you explicitly dictate what files/folders can be crawled. However, this field is currently not part of the "robots.txt" protocol, so my recommendation is to use it only if absolutely needed, as it might confuse some less intelligent crawlers.
Quelle

Im Standard scheint es also nicht drin zu sein, aber mindestens Googlebot unterstützt "Allow:". Siehe auch https://www.google.com/webmasters/faq.html und besonders https://www.webmasterworld.com/forum93/15.htm , was die Validität angeht.

Selbstverständlich linke ich auch weiterhin zu Webmasterworld, sofern es sinnvoll erscheint