Seite 1 von 1

Aufnahme von URLs trotz robots.txt / Disallow

Verfasst: 05.05.2009, 09:06
von Mukkifarmer
Hallo Leute!

Ich habe vor ein paar Monaten in der robots.txt eingetragen, dass alle Seiten die ein Fragezeichen (?) enthalten nicht in den Index aufgenommen werden.

Google geht da ja nach der eigenen Aussage so vor: "Falls der betreffende Content bereits in unserem Index enthalten ist, wird er beim nächsten Crawlen entfernt."

Jetzt sehe ich diese Seiten aber immernoch im im Google-Index, allerdings TEILWEISE ohne Content-Beschreibung und auch in den Webmaster Tools. Einige Seiten stehen aber mit Content im Google Index, obwohl diese angeblich laut Webmaster-Tools geblockt werden.

Ich könnte mir ja nun die Mühe mache, diese Seiten alle schön einzeln mit dem "Ich muss jede der 10.000.000 Seiten einzeln entfernen"-Tool (gibtsdairgendein Tool wo man eine komplette Liste rein kopieren kann???) in den Webmaster-Tools entfernen. Aber was bringt das, Google nimmt die Seiten (wenn ich Glück habe) ohne Content ja anscheinend wieder in den Index auf???

Verfasst:
von
Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Verfasst: 05.05.2009, 10:39
von HaraldHil
Ich habe vor ein paar Monaten in der robots.txt eingetragen, dass alle Seiten die ein Fragezeichen (?) enthalten nicht in den Index aufgenommen werden.
Falsch: Der Eintrag in der robots.txt bedeutet nur, daß diese Seiten nicht gespidert werden sollen.
Ein Indizierungsverbot wird über den Meta Robots erteilt.

Verfasst: 05.05.2009, 11:32
von Mukkifarmer
Ist ja immernoch die gleiche Seite die indexiert werden soll, nur mit z.B. einem "?sortierung=xy" hinten dran, also kann man da die indexierung per Meta Robots nicht verbieten.

Verfasst:
von

Verfasst: 05.05.2009, 11:55
von Mukkifarmer
OK, danke für den Tipp!

Ich hab mir jetzt eine Abfrage für den Header gebastelt.

Code: Alles auswählen

<?php
  if&#40;&#40; substr_count&#40;$_SERVER&#91;'REQUEST_URI'&#93;, '?page'&#41;&#41;&#41; &#123;
    echo '<meta name="robots" content="noindex, follow" />' . "\n";
  &#125;
&#125; else &#123;
?>
Jemand einwände? ^^

edit: Ach ja, soll dann das "Disallow: /*?page" Dann aus der robots.txt raus nehmen, gibt das Problmene wenn es sozusagen doppelt drin steht?