Aufnahme von URLs trotz robots.txt / Disallow

Beitrag von **Mukkifarmer** » 05.05.2009, 09:06

Hallo Leute!

Ich habe vor ein paar Monaten in der robots.txt eingetragen, dass alle Seiten die ein Fragezeichen (?) enthalten nicht in den Index aufgenommen werden.

Google geht da ja nach der eigenen Aussage so vor: "Falls der betreffende Content bereits in unserem Index enthalten ist, wird er beim nächsten Crawlen entfernt."

Jetzt sehe ich diese Seiten aber immernoch im im Google-Index, allerdings TEILWEISE ohne Content-Beschreibung und auch in den Webmaster Tools. Einige Seiten stehen aber mit Content im Google Index, obwohl diese angeblich laut Webmaster-Tools geblockt werden.

Ich könnte mir ja nun die Mühe mache, diese Seiten alle schön einzeln mit dem "Ich muss jede der 10.000.000 Seiten einzeln entfernen"-Tool (gibtsdairgendein Tool wo man eine komplette Liste rein kopieren kann???) in den Webmaster-Tools entfernen. Aber was bringt das, Google nimmt die Seiten (wenn ich Glück habe) ohne Content ja anscheinend wieder in den Index auf???

von **Anzeige von ABAKUS** »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:

einzigartige Texte
suchmaschinenoptimierte Inhalte
eine sinnvolle Content-Strategie
Beratung und Umsetzung

Jetzt anfragen: 0511 / 300325-0

Beitrag von **HaraldHil** » 05.05.2009, 10:39

Ich habe vor ein paar Monaten in der robots.txt eingetragen, dass alle Seiten die ein Fragezeichen (?) enthalten nicht in den Index aufgenommen werden.

Falsch: Der Eintrag in der robots.txt bedeutet nur, daß diese Seiten nicht gespidert werden sollen.
Ein Indizierungsverbot wird über den Meta Robots erteilt.

Beitrag von **Mukkifarmer** » 05.05.2009, 11:32

Ist ja immernoch die gleiche Seite die indexiert werden soll, nur mit z.B. einem "?sortierung=xy" hinten dran, also kann man da die indexierung per Meta Robots nicht verbieten.

von **Anzeige von ABAKUS** »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002

persönliche Betreuung
individuelle Beratung
kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.

Beitrag von **Mukkifarmer** » 05.05.2009, 11:55

OK, danke für den Tipp!

Ich hab mir jetzt eine Abfrage für den Header gebastelt.

Code: Alles auswählen

<?php
  if&#40;&#40; substr_count&#40;$_SERVER&#91;'REQUEST_URI'&#93;, '?page'&#41;&#41;&#41; &#123;
    echo '<meta name="robots" content="noindex, follow" />' . "\n";
  &#125;
&#125; else &#123;
?>

Jemand einwände? ^^

edit: Ach ja, soll dann das "Disallow: /*?page" Dann aus der robots.txt raus nehmen, gibt das Problmene wenn es sozusagen doppelt drin steht?