Seite 1 von 1

Fehler für URLs in XML-Sitemaps?

Verfasst: 16.04.2009, 09:16
von Synonym
Hallo zusammen,

da in meinem WMT nun schon seit fast 6 Monaten mehrere tausend Fehler angezeigt werden würde nun doch gerne mal wissen was ich dagegen tun soll.

Laut "Fehler für URLs in XML-Sitemaps" liegen bei mir fast 1000 Fehler in der Sitemap vor. Der Punkt ist jedoch, dass diese bemängelten Seiten zwar wirklich existieren, aber zum einen auf noindex stehen und auch noch nie in der Sitemap eingetragen waren.

Nachdem ich mal im Google-Forum nachgefragt hatte hieß es nur ich solle die Seiten per robots.txt sperren. Das habe ich so auch getan.

Nur stehen seit dem noch zusätzlich ca. 2000 Seiten im Bereich "URLs durch robots.txt eingeschränkt" und die vorherigen sind nach wie vor vorhanden.

Ich hätte die Seiten nun schon irgendwie da gerne raus denn so ist es auch fast nicht möglich "echte" Fehler zu finden.
Wie gesagt, die betroffenen Seiten stehen alle auf "noindex", was eigentlich reichen sollte. robots.txt wollte ich eigentlich nicht nehmen, da die dann ja wieder in der anderen Liste als Fehler auftauchen.

Ein ähnliches Spiel habe ich noch bei einer anderen Domain, bei der der Bot immer eine Session-ID anhängt. Bei mir gibt es aber keine Session und die Seite liefert einen Fehler 404 aus. Auch dort steht alles als "Fehler in der Sitemap" und robots.txt machte es nur noch schlimmer.

Weiß einer von auch wie man da vorgehen kann?

Verfasst:
von

Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Verfasst: 16.04.2009, 10:12
von luzie
Im Google-Forum haben sie dir nicht gesagt, dass das keine "Fehler" sind? War ich wohl grade nicht da ^^ ... Es sind diagnostische Meldungen, die wirst du nicht los, braucht's aber auch nicht, es ist einfach ein Service von Google dir alles aufzulisten was:

1. nicht gefunden wird
2. gesperrt ist (ob noindex oder robots.txt)

Immerhin steht auf

Dashboard > Diagnose > Web-Crawl

dieser Hinweis:

Hinweis: Möglicherweise sind nicht alle Fehler tatsächlich Probleme. Zum Beispiel haben Sie vielleicht Crawler für bestimmte Seiten absichtlich gesperrt. In diesem Fall müssen Sie den Fehler nicht korrigieren.

Verfasst: 16.04.2009, 15:01
von Synonym
Hi luzie,

na dass das nicht alles echte Fehler sind ist mir schon klar. Allerdings können dort ja auch echte Fehler stehen, etwa wenn auf der Seite was falsch programmiert wurde. Der Sinn dieser Auflistung ist doch eigentlich Fehler zu finden und diese falls erforderlich zu ändern.
Dein Zitat sagt ja genau das aus. " In diesem Fall müssen Sie den Fehler nicht korrigieren" folglich, in den anderen wäre es schon sinnvoll....

Nur wenn da halt mehrere tausend Einträge sind, dann ist das sehr mühsam alle einzeln durchzusehen bis man eventuell einen "echten" Fehler findet.

Wenn Meldungen angezeigt werden im Bereich "durch robots.txt gesperrt" und diese dort auch gesperrt sind, dann verstehe ich das sehr gut.

Wenn es aber heißt, dass "in der Sitemap Fehler sind" und die da gar nicht drinnen stehen, dann verstehe ich das nicht. Natürlich können da echt mal welche in der XML sein die es nicht mehr gibt oder umgeleitet sind, der Sinn ist es doch diese zu finden und zu löschen, oder nicht?

Auch verstehe ich nicht warum bei meinem Forum nun gut 23.000 Seiten bemängelt werden die es gar nicht gibt und auch noch nie gab.

Und bei den Angaben "Verknüpft von" die sonst immer sehr hilfreich sind steht ausgerechnet bei all den "fälschlichen" Meldungen "Nicht verfügbar". Ich weiß also weder wie Google auf die URL kommt, wo die angeblich eingetragen sein soll, noch warum der nicht endlich mal einen Fehler 404 akzeptiert. Es ist ja nicht erst seit kurzem so sondern schon viele Monate und das Datum von "Problem ermittelt am" ist immer recht neu, meist 3-10 Tag alt.

Und, nein, auf die Frage hatte ich von Dir im Google-Forum keine Antwort, auf eine andere schon ;-)

Verfasst:
von

Verfasst: 16.04.2009, 15:29
von Mork vom Ork
Synonym hat geschrieben:Allerdings können dort ja auch echte Fehler stehen, etwa wenn auf der Seite was falsch programmiert wurde. Der Sinn dieser Auflistung ist doch eigentlich Fehler zu finden und diese falls erforderlich zu ändern.
Du solltest Googles Webmasterspielzeug nicht dazu nutzen, um Fehler auf deinen Seiten zu finden. Dein Server führt Zugriffs- und Fehlerprotokolle, die wesentlich zuverlässiger sind.

Dein erster Anlaufpunkt beim Auftreten von Problemem sollte also dein eigenes Fehlerprotokoll sein. Steht da nix drin, prüfe die letzten Zugriffe des Googlebots anhand des Zugriffsprotokolls.

Verfasst: 16.04.2009, 15:35
von Synonym
Hm ok, dann lass ich da wohl mal die Finger von weg.

Ich ging halt immer davon aus dass die Angaben dort auch was mit der Sitemap ansich zu tun haben.
Webmaster/Website-Inhaber-Hilfe › XML-Sitemaps › Arbeiten mit XML-Sitemaps › HTTP-Fehler

Werde mich dann wohl doch wieder mit den Logfiles herumschlagen.

Danke euch beiden

Verfasst: 16.04.2009, 16:21
von luzie
Synonym hat geschrieben:Auch verstehe ich nicht warum bei meinem Forum nun gut 23.000 Seiten bemängelt werden die es gar nicht gibt und auch noch nie gab.
Sieh an ... das ist doch was. Das kann heissen, dass dein Forum selbst ODER dein(e) Sitemap(generator) an irgendeiner Stelle systematisch fehlerhafte Links (URLs) produziert.

Verfasst: 17.04.2009, 09:27
von Mork vom Ork
Synonym hat geschrieben:Ich ging halt immer davon aus dass die Angaben dort auch was mit der Sitemap ansich zu tun haben.
Webmaster/Website-Inhaber-Hilfe › XML-Sitemaps › Arbeiten mit XML-Sitemaps › HTTP-Fehler
Das kann aber nur ein Hinweis auf die Ursache sein, luzie hat ja bereits Vermutungen dazu angestellt. Um jedoch überhaupt auf Fehler aufmerksam zu werden, ist Googles „Hilfe“ meines Erachtens nach unnütz.
Werde mich dann wohl doch wieder mit den Logfiles herumschlagen.
Ich behaupte ja, dass bei einem gut geführten Server das Fehlerprotokoll so gut wie leer bleibt - also nix mit Rumschlagen, sondern einmal die Woche eine Handvoll Einträge überfliegen. Ich kriege bummelig pro 400.000 ausgelieferter Seiten einen Fehler, der genauer betrachtet werden müsste (weil er nicht offensichtlich von einem amoklaufenden Bot und sonstiger Müllsoftware verursacht wurde).

Das Problem, dass bei vielen Leuten Massen von Fehlern auflaufen, liegt eher daran, dass diese Fehler ignoriert werden. Davon verschwinden sie aber nicht, und es kommen im Lauf der Zeit immer neue dazu, so dass man früher oder später vor einem riesigen Haufen steht, was dann wiederum der Motivation, Fehler zu beheben, wenig zuträglich ist …

Also: Auch wenn's viel scheint, Schritt für Schritt den Fehlern auf den Grund gehen, dann läuft es bald wieder rund und fehlerfrei, und das Fehlerprotokoll wird zur echten Hilfe.

Verfasst: 17.04.2009, 11:16
von Synonym
Hi Ihr beiden

Also am Sitemapgenerator kann es nicht liegen, denn ich verwende keine. In der Sitemap selber (vom Forum) stehen auch nur 11 URLs, also das ist es auch nicht. Dass das Forum irgendwo die falschen Links beinhaltet könnte natürlich sein, aber ich habe da schon mehrfach gesucht und nirgends auch nur einen einzigen davon gefunden. Egal welchen Spider oder auch Crawler ich da auch drüber jage, die fehlerhaften URLs kommen nie zu stande. Nur Google greift immer wieder darauf zu. Yahoo oder MSN auch nicht.

Und luzie genau zu dem Punkt hattest Du mir im Google Forum geantwortet. Das Ergebnis dort war einfach per robots.txt sperren. Aber das ist ja nun nicht wirklich eine brauchbare Lösung. Das verhindert zwar dass Google die Seiten in den Index aufnimmt, aber nicht dass das WMT vollläuft mit Meldungen wegen "nicht gefunden" oder "durch robots.txt gesperrt".

Und Mork vom Ork, dann muss ich wohl meine Logfiles irgendwie umbiegen, denn bei mir stehen normale Zugriffe 200, Fehler 404 und Umleitungen 301 im gleichen File und da sind es dann schon gut 30 MB Daten pro Tag und sehr schwer da überhaupt etwas zu finden was falsch sein könnte.
Ich schließe ja nicht aus dass irgendwo das System fehlerhafte Links produziert, genau die will ich ja finden und beheben. Hin und wieder finde ich auch so einen Eintrag und kann den Fehler korrigieren, aber das ist echt nur Zufall den die meisten Seiten die einen 404 liefern gibt es wirklich nicht. Leider lässt sich aber nirgends nachvollziehen woher der Zugriff erfolgt bzw. zu 99% nicht, das ist ja das Problem.

Also ich suche dann mal Stück für Stück weiter, vielleicht komme ich dann ja mal auf einen grünen Zweig.

Danke und Gruß

Verfasst: 17.04.2009, 13:20
von Mork vom Ork
Synonym hat geschrieben:dann muss ich wohl meine Logfiles irgendwie umbiegen, denn bei mir stehen normale Zugriffe 200, Fehler 404 und Umleitungen 301 im gleichen File und da sind es dann schon gut 30 MB Daten pro Tag und sehr schwer da überhaupt etwas zu finden was falsch sein könnte.
Üblicherweise führen Webserver zwei Protokolle: Das Zugriffsprotokoll, in dem alle Zugriffe landen (das hast du gerade zufassen), und ein separates Fehlerprotokoll, in dem ausschließlich Fehler gemeldet werden, und zwar (meist) deutlich detailierter, als es der Öffentlichkeit im Browser mitgeteilt wird. Frage deinen Hoster, wo du letzteres Protokoll findest.

Verfasst: 17.04.2009, 13:46
von Synonym
Hi Mork vom Ork,
natürlich habe ich auch ein separates error_log wenn Du das meinst, dort stehen auch Fehler drinnen, aber nicht alle.
Alle Zugriffe die auf die Domain erfolgen, bei denen es die Datei gar nicht gibt und mod_rewrite nicht aktiv wird stehen im error_log. Soweit so gut.

Aber alle anderen Zugriffe die erst über die .htaccess laufen, dann die Datenbank befragen und für den Fall, dass es die Seite nicht gibt, PHP einen 404 sendet, dann stehen die Einträge im access_log bei mir, nicht aber im error_log.

Kann man das dem Server irgenwie beibringen dass der die auch ins error_log schreibt? Das mit der ErrorLog-Direktive habe ich ja schon, aber da stehen keine Einträge drinnen wenn der 404 von PHP kommt sondern nur die direkt vom Apache. :-( Wenn dem anders wäre wäre es auch leicht die Fehler zu finden, nun weiß ich auch was Du meinst.

z.B. auch Forbidden (403). Kommt das direkt von der .htaccess, etwa per "deny from", dann steht es auch im error_log. Kommt es aber z.B. von der Bot-Trap, dann steht es nur im access_log.

Verfasst: 17.04.2009, 19:28
von Mork vom Ork
Synonym hat geschrieben:[Wenn] PHP einen 404 sendet, dann stehen die Einträge im access_log bei mir, nicht aber im error_log.
Ahso. Für die Einträge in das Fehlerprotokoll ist das jeweilige Modul verantwortlich, das den Fehler erzeugt, in diesem Falle also PHP. Du kannst mittels error_log() beliebigen Text in das Protokoll schreiben.

Verfasst: 18.04.2009, 10:08
von Synonym
Hi Mork vom Ork,
na das schaut ja was vielversprechendes zu sein. Bei "error_reporting()" war ich schon oft genug, aber das "error_log()" hatte ich immer übersehen.

Das "error_log = /var/log/php_error.log" in der php.ini brachte nämlich auch nicht das gewünschte, sondern loggte nur echte PHP-Fehler (Syntax, Speicherüberlauf, Laufzeitüberschreitung, Fehler bei Variablen und Konstanten und dergleichen).

Mit error_log() sollte es nun ja gehen explizit vor header() einen Eintrag abzusetzen.

Werde mich da mal ranmachen.

Danke Dir !