googlebot ignoriert neuerdings robots.txt ???

Beitrag von **derExperte** » 24.10.2003, 03:16

Soeben ist mir völlig überraschend aufgefallen, daß mehrere neue Webseiten trotz Ausschluß in der robots.txt im google index auftauchen!

Ich dachte bislang immer, daß sich die googlebots an die robots.txt halten?!?

Ich wollte nämlich den link zum Impressum nicht in den index aufnehmen lassen, daß dieser nicht auch bei den Suchergebnissen auftaucht! Aus diesem Grund habe ich den entsprechenden Eintrag in der robots.txt vorgenommen. Außerdem habe ich die einzige verlinkung zum impressum über javascript getätigt. (Auch hier habe ich dazugelernt: den bots ist anscheinend die Syntax eines html-files egal, so lesen Sie auch aus js-Anweisungen die html-tags korrekt aus! - Also immer alles unlesbar machen!)

Ist Euch das nun auch aufgefallen? Es kann doch nicht sein, daß google die robots.txt jetzt auch ignoriert, vor allem weil ich aus den logfiles entnehmen konnte, daß die bots sie gelesen haben!

Grüße Thomas

von **Anzeige von ABAKUS** »

Beitrag von **mauri** » 24.10.2003, 06:40

moin
hatte damit auch ein problem.
am ende stellte sich raus das meine txt file zu lang war.
nachdem ich dies aenderte > funzt es.
gruss

Beitrag von **derExperte** » 24.10.2003, 06:46

@mauri

Auch einen wunderschönen guten Morgen!
An der Länge kann es kaum liegen, da die robots.txt nur 5 Zeilen lang ist. (selbstverständlich auch syntaktisch korrekt)

Beitrag von **mauri** » 24.10.2003, 06:55

am besten, meldeste dich da an:
https://services.google.com:8882/urlcon ... tcmd=login

schmeiss deine robots txt file hier :
Remove pages, subdirectories or images using a robots.txt file
rein und sehe was passiert.
wenn er sie annimmt ist sie in ordung und wird die seiten rauswerfen > die er nicht drin haben sollte, laut txt file.
wenn du einen fehler bekommst, musst du halt den anweisungen folgen.
wenn google> die txt file annimmt und troztdem nicht deine falsch indexsierten seiten rausschmeisst, dann passt deine txt file nicht.
einfacher und simpler gehts nicht *find*
hope it helps

Beitrag von **derExperte** » 24.10.2003, 16:21

also die robots.txt ist ok und wird akzeptiert !!!

Jetzt bin ich leider genauso schlau wie vorher und noch immer recht verwirrt. (Habe gerade noch mal nachgeschaut und festgestellt, daß bei alten Projekten die robots.txt immer korrekt akzeptiert wurden.)

Mir ist das noch immer völlig unklar und deshalb habe ich natürlich noch mal eine test-domain mit einer robots.txt ausgestattet um das ganze nochmal zu beobachten.

grüße zum wochenende
Thomas

Beitrag von **mauri** » 24.10.2003, 17:03

poste mal deine txt file und eine seite die nicht drin sein sollte.