Seite 1 von 1

Warum verweigert Google meinen "URL removal request&quo

Verfasst: 15.05.2007, 23:36
von holch
Ich würde gerne den RSS-Feed meines Blogs aus den Suchergebnissen entfernen. Also dachte ich mir, da gibts doch was von Ratio..., äh, nein, Google Webmaster Tools. Also ausprobiert. Vorher noch wie von Google gefordert per robots.txt den Folder feed/ für die Robots verboten.

Jetzt hab' ich nach einiger Zeit mal wieder nachgesehen und die URL https://www.rothemund.org/feed/ ist noch in den SERPS (per site:Abfrage gesucht).

In den Webmaster Tools findet man dann "Status: denied", siehe Screenshot unter https://www.rothemund.org/2007/05/16/go ... st-denied/ .

Kann mir jemand einen guten Grund nennen, warum Google mir das verweigert? Liegt es daran, dass es ein Feed ist? (Spricht eigentlich irgend etwas dagegen den Feed aus den Serps zu nehmen?). Ist an der robots.txt etwas falsch?

Danke schon mal für die Mühe. Würde mich einfach interessieren, ob es da einen vernünftigen Grund gibt oder die Jungs bei Google einfach keinen Bock haben. ;-)

Verfasst:
von

Verfasst: 15.05.2007, 23:42
von GreenHorn
Weil die von dir zur Löschung angegebene URL nicht den entsprechend von google gewünschten Fehlercode 404 oder 410 zurück gibt...

Verfasst: 15.05.2007, 23:50
von holch
Danke für deine Antwort, aber daran kann es nicht liegen. Denn wenn ich den Code ausliefere fliegt über kurz oder lang sowieso alles, da die Datei ja nicht mehr vorhanden ist. Also ich will ja, dass die Seite erreichbar ist, aber eben nicht im Index auftaucht.

Außerdem ist das ja auch nur EINE der 3 angebotenen Möglichkeiten:
To remove content from the Google index, do one of the following:

* Ensure requests for the page return an HTTP status code of either 404 or 410. [?]
* Block the page using a robots.txt file. [?]
* Block the page using a meta noindex tag. [?]
Ich habe mich für die Lösung mit der Robots.txt entschieden, weil ich die Seite eben schon erreichbar haben möchte, also keinen 404 oder 410 ausliefern kann. Ein meta noindex möchte ich in einen RSS-Feed auch nicht einbauen. ;-)

Also bleibt nur noch Robots.txt.

Liegt es vielleicht an dem ersten leeren "Disallow:"?

Verfasst:
von

Verfasst: 15.05.2007, 23:55
von GreenHorn
Für dich noch mal zum mitschreiben. Wenn du das Teil über Webmastertools (das war die Frage: "Status: denied") sehr schnell entfernen willst: 404 oder 410 zwingend notwendig!

Alle anderen Varianten laufen über die reguläre Indexbereinigung per robots... das heißt: Warten bis google Laune und Muße hat.

Verfasst: 16.05.2007, 00:01
von holch
Kein Grund gleich schnippisch zu werden.

Du machst ja jetzt auch eine andere Aussage.

Vorher: ich habe keinen 404 oder 410 geliefert, also geht das nicht.
Jetzt: naja mit 404/410 passiert sofort was, bei den anderen beiden dauert es.

Abgesehen davon, dass Google in der Zwischenzeit meine robots.txt schon mehrmals gelesen hat.

Und wenn dem so ist, finde ich diese Funktion ziemlich sinnlos, denn früher oder später liest Google die robots.txt ja ohne hin. Weshalb sollte Google dann sowas einrichten? Hmmm,...

Verfasst: 16.05.2007, 00:07
von GreenHorn
holch hat geschrieben: Kein Grund gleich schnippisch zu werden.

Du machst ja jetzt auch eine andere Aussage.

Vorher: ich habe keinen 404 oder 410 geliefert, also geht das nicht.
Jetzt: naja mit 404/410 passiert sofort was, bei den anderen beiden dauert es.

Abgesehen davon, dass Google in der Zwischenzeit meine robots.txt schon mehrmals gelesen hat.

Und wenn dem so ist, finde ich diese Funktion ziemlich sinnlos, denn früher oder später liest Google die robots.txt ja ohne hin. Weshalb sollte Google dann sowas einrichten? Hmmm,...
Falsch. Ich habe eine klare Aussage gemacht. Hätten die von dir zur Löschung beauftragten Seiten (Webmastertools) den Fehlercode korrekt ausgeliefert, hättest du keine Verweigerung (Status: denied) von google bekommen.
Ich mach jetzt dicht... du fragst und weißt es eh besser.

Verfasst: 16.05.2007, 00:14
von holch
Nein, weiß ich nicht.

Aber mir erscheint deine Antwort im ersten Moment nicht logisch, deswegen habe ich nochmal nachgefragt. Ist ja nicht zum ersten Mal passiert in einem Forum, dass der Fall einfach schnell gescannt wurde und dann eine schnelle Antwort gegeben wurde. Vor allem weil es spät ist.

Ich bedanke mich jedenfalls nochmal für deine Antwort. Aber ich kann mir einfach irgendwie nicht vorstellen, dass das Problem beheben soll. Wenn dem so sein sollte, dann muss ich aber wohl damit leben.

Gute Nacht.

Verfasst: 16.05.2007, 00:51
von net(t)worker
naja... robots.txt bewahrt eine URL nicht unbedingt vor der Anzeige in den serps... gibt genug beispiele von webseiten die trotz komplettsperrung durch robots.txt sogar top platziert sind...

Verfasst: 16.05.2007, 04:59
von Fox Mulder
404 oder 410 zwingend notwendig!
Das stimmt nicht!
Gerade wenn Du über die robots.txt auschliesst/löscht benötigst Du keinen 404/410.
Tausendmal gemacht!

Hierzu auch mal Googles Anweisungen lesen:
Führen Sie einen der folgenden Schritte aus, um Inhalte aus dem Google-Index zu entfernen:

Stellen Sie sicher, dass beim Aufrufen der Seite der HTTP-Statuscode 404 oder 410 zurückgegeben wird. [?]
Seite mithilfe einer robots.txt-Datei blockieren [?]
Seite mithilfe eines "noindex"-Meta-Tags blockieren [?]
Gruss

Verfasst: 16.05.2007, 05:31
von MonikaTS
holch hat geschrieben:Nein, weiß ich nicht.

Aber mir erscheint deine Antwort im ersten Moment nicht logisch, deswegen habe ich nochmal nachgefragt. Ist ja nicht zum ersten Mal passiert in einem Forum, dass der Fall einfach schnell gescannt wurde und dann eine schnelle Antwort gegeben wurde. Vor allem weil es spät ist.

Ich bedanke mich jedenfalls nochmal für deine Antwort. Aber ich kann mir einfach irgendwie nicht vorstellen, dass das Problem beheben soll. Wenn dem so sein sollte, dann muss ich aber wohl damit leben.

Gute Nacht.

per robots.txt ausschließen bedeutet nur: Du bot durchsuch das nicht!

aber wenn Blogger X Dein Feed verlinkt, dann ist es in den Serps

lg

Verfasst: 16.05.2007, 07:47
von holch
OK, also offensichtlich ist die Aussage, dass das nur per 404/410 geht nicht richtig. Hab' ich mir ja gedacht, denn dann wäre alles was Google so in den Webmaster Tools schreibt ziemlich sinnlos (siehe oben).

Dass die Seiten/Ordner nicht ganz aus den SERPs verschwinden habe ich auch bereits festgestellt. Aber immerhin sieht es so aus, als wären sie nicht indiziert, sprich es wurden keine Inhalte durchsucht. Also sollten sie in richtigen Serps (also nicht mit der Site: Abfrage) auch keine Rolle spielen.

Das mit der Verlinkung durch den Blogger verstehe ich irgendwie nicht. Heißt das egal was ich in die Robots.txt schreibe, wenn eine Person auf den Feed verlinkt, dann wird auch der Ordner "Feed" komplett indiziert, d.h. er könnte meine eigentlichen Seiten hinten anstehen lasse (vorausgesetzt der Feed wird oft genug verlinkt)?

Zum Problem an sich:
Ich bin gestern die Robots.txt nochmal ganz genau durchgegangen und ich hatte die Slashes vor den Ordnern und Dateien vergessen. Vielleicht liegt es daran. Ich hab' jetzt einfach nochmal einen Request gestellt und dann sehen wir mal was passiert.

Danke an alle die bisher versucht haben zu helfen.

Verfasst: 16.05.2007, 09:34
von GreenHorn
holch hat geschrieben:OK, also offensichtlich ist die Aussage, dass das nur per 404/410 geht nicht richtig. Hab' ich mir ja gedacht, denn dann wäre alles was Google so in den Webmaster Tools schreibt ziemlich sinnlos (siehe oben).
Konzentriert lesen und den Sinn zu verstehen scheint offenbar sehr schwer zu sein.

@einfach
Danke, du verstehst den feinen Unterschied.

Verfasst: 16.05.2007, 11:07
von holch
@greenhorn: ja, ich bin ein bißchen dumm. Damit muss ich leider seit meiner Geburt leben. ;-) Ich

@all: ich habe jetzt die Änderung in der robots.txt vorgenommen, einen neuen URL removal Antrag gestellt (heute früh so gegen 01:00 Uhr) und jetzt (so in der letzten halben Stunde) wurde in den Webmaster Tools angezeigt, dass es durchgegangen ist. Die URL https://www.rothemund.org/feed/ ist komplett aus dem Index (es wird nichts mehr angezeigt bei site:rothemund.org.

Das ganze über robots.txt und ohne 404/410.

Verfasst: 23.05.2007, 18:19
von holch
UPDATE: Also, die URL https://www.rothemund.org/feed scheint wirklich aus dem Index raus zu sein. Jetzt hatte ich natürlich ein weiteres Problem, und zwar die Feeds zu jedem Artikel (Kommentare).

Jetzt könnte ich natürlich mit */feed/ alles was nach Feed aussieht aus der Robots.txt ausschließen. Da die Robots.txt ja aber offensichtlich nur vor dem Durchsuchen, nicht aber vor dem Auftauchen in den SERPs schützt (danke an Newcomer, der mir das mehr als "deutlich" klar zu machen versucht hat), habe ich ein bißchen weitergesucht und es gibt wohl für Wordpress ein Plugin, das ein NOINDEX in die Feeds einfügt.

Angeblich soll Yahoo offiziell bestätigen, dass das funktioniert. Ich probiere das jetzt einfach mal aus. Vielleicht interessiert sich ja jemand für das Plugin. Wenn das funktioniert, erspart mir das einiges an Arbeit.

Allerdings fällt mir dazu ein, dass ich eigentlich dann den Hauptfeed aus der Robots.txt wieder rausnehmen muss. Sonst weiss Google ja nicht, dass die nicht in den Index darf. Er darf die Datei ja nicht lesen. ;-)