das war ein eintrag aus den logfiles. google indiziert irgendwie nur die startseite meiner hp, obwohl die weiterführenden links mit mod rewrite geschrieben sind und ne normale html endung haben. die dateinamen sind so aufgebaut, dass sie einfach nur aus einer zahl bestehen. eine robots.txt datei gibt es nicht auf dem server.
mittlerweile hat google sogar die neuen mod rewrite-seiten wieder rausgeworfen (!) und behält jetzt nur noch die alten seiten mit parameterübergaben (irgendwas.php?id=1) !!! woran kann das liegen?
Du hast keine Robots.txt deswegen eine 404 Meldung. Mit der robots.txt kannst du auch steuern das Google nicht die php?id=xxx anzeigt sondern die anderen. (wie meistens bei Google, Geduld ist angesagt)
Bau dir eine robots.txt, die bsp. mit
Disallow: /freeware-tools/*.xml$
Disallow: /freeware-tools/*.config$
alle Dateien mit der Endung .xml bzw. .config im Verzeichnis /freeware-tools/ ausschließt.
Google hatte bei mir am Montag das obige Unterverzeichnis neu eingelesen, am Dienstag waren die Dateien gelistet, u.a. Xml-Dateien, bei denen eine Indizierung Quatsch war und die Html-Umwandlung eine leere Seite angezeigt hat - ich hatte nicht daran gedacht, daß diese eingelesen werden. Am Dienstag abend habe ich die robots.txt entsprechend geändert, google holte sich diese am Mittwoch früh, morgens waren alle neu aufgenommenen Seiten wieder draußen. Freitags wurden alle .html-Seiten und eine .xml-Seite aus einem anderen Verzeichnis beabsichtigt eingelesen, alle von der obigen Anweisung erfaßten Dateien säuberlich ignoriert. Nun - Sonntag früh - sind alle Dateien wieder indiziert. M.a.W.: Es geht genau so, wie es soll.
[Edit] Gemeint war natürlich: Oben dein auszuschließendes Verzeichnis und /Verzeichnisname/*.php$ zu verwenden. Das, was ich geschrieben habe, ist eben ein Ausschnitt meiner robots.txt