Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

.pdf nicht indexieren lassen

Hier können Sie Ihre Fragen zum Thema Suchmaschinenoptimierung (SEO) / Positionierung stellen
Neues Thema Antworten
nanos
PostRank 8
PostRank 8
Beiträge: 923
Registriert: 02.08.2008, 15:00

Beitrag von nanos » 13.09.2011, 16:23

Hallo,

wie kann man verhindern, dass Google .pdf Dateien in einem Online shop indexiert?

Wir verlinken nun schon nofollow zu dem .pdf und haben die Seiten per Robots.txt gesperrt. Dennoch werden Sie indixiert.

Kann mir da jemand weiterhelfen?

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Synonym
PostRank 10
PostRank 10
Beiträge: 3708
Registriert: 09.08.2008, 02:55

Beitrag von Synonym » 13.09.2011, 16:28

schon mal mit "noindex" versucht?

o2
PostRank 4
PostRank 4
Beiträge: 113
Registriert: 09.08.2004, 16:54

Beitrag von o2 » 13.09.2011, 17:08

Oder aber auch die Syntax in der robots.txt geprüft? Die Google Webmaster Tools leisten hier auch ganz gute Dienste.

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Synonym
PostRank 10
PostRank 10
Beiträge: 3708
Registriert: 09.08.2008, 02:55

Beitrag von Synonym » 13.09.2011, 17:15

mit der Robots.txt kannst Du verhindern, dass Google auf bestimmte Verzeichnisse / Dateien zugreift, z.B. /css/, /templates/ etc. Es garantiert aber nicht, dass die URLs, wenn die denn irgendwo verlinkt sind, nicht im Index erscheinen. Das tun die dann sehr oft, auch wenn ohne Description. Und die PDFs werden ja wohl irgendwo verlinkt sein, sonst macht es ja keinen Sinn - also -> noindex.

Aus der Google-Hilfe:
Wichtig: Selbst wenn Sie mithilfe einer robots.txt-Datei das Crawlen des Contents Ihrer Website durch Spider unterbinden, kann Google den Content auf andere Weise ermitteln und ihn unserem Index hinzufügen. Andere Websites können beispielsweise Links zu ihm aufweisen. Folglich können die URL der Seite und eventuell auch andere öffentlich verfügbare Informationen wie z. B. der Ankertext in Links zu der Website oder ein im Open Directory Project angegebener Titel in den Google-Suchergebnissen angezeigt werden. Hinzu kommt, dass die in der robots.txt-Datei festgelegten Anweisungen zwar von allen seriösen Robots unterstützt, aber von einigen eventuell unterschiedlich interpretieren werden. Die Beachtung einer robots.txt-Datei ist jedoch nicht lückenlos durchsetzbar, sodass sie von Spammern und anderen Störenfrieden gelegentlich ignoriert wird. Deshalb empfehlen wir Ihnen, vertrauliche Informationen mit einem Passwort zu schützen (siehe oben).
Verwenden Sie ein "noindex"-Meta-Tag, um die Anzeige bestimmter Contents in den Google-Suchergebnissen zu verhindern. Wird auf einer Seite ein "noindex"-Meta-Tag gefunden, wird die Seite vollständig aus den Google-Suchergebnissen ausgeschlossen, auch wenn von anderen Websites auf sie verwiesen wird.
Sollen die Inhalte einer Seite nie dem Google-Webindex hinzugefügt werden, obwohl von anderen Websites auf sie verwiesen wird, muss ein "noindex"-Meta-Tag verwendet werden. Beim Crawlen der Seite erkennt Googlebot das "noindex"-Meta-Tag und schließt die URL aus dem Index aus.
Zuletzt geändert von Synonym am 13.09.2011, 17:21, insgesamt 3-mal geändert.

chris21
PostRank 9
PostRank 9
Beiträge: 2758
Registriert: 10.04.2005, 18:17

Beitrag von chris21 » 13.09.2011, 17:16

Ansonsten für die Extremvariante X-Robots verwenden.

Mehr dazu hier: https://code.google.com/web/controlcraw ... a_tag.html (unten auch ein Beispiel mit X-Robots Angaben für pdf Dateien).

Allerdings klingt es schon danach, dass Ihr in Eurer normalen Robots.txt irgendwo die Syntax vermasselt habt.

Synonym
PostRank 10
PostRank 10
Beiträge: 3708
Registriert: 09.08.2008, 02:55

Beitrag von Synonym » 13.09.2011, 17:17

meinte ich doch :-)

madi
PostRank 2
PostRank 2
Beiträge: 49
Registriert: 04.03.2011, 14:11

Beitrag von madi » 13.09.2011, 19:26

Code: Alles auswählen

User-agent: *
Disallow: /*.pdf$

chris21
PostRank 9
PostRank 9
Beiträge: 2758
Registriert: 10.04.2005, 18:17

Beitrag von chris21 » 13.09.2011, 20:01

@Ingo:

ich meinte aber den X-Robots HTTP Header, der nur von Google unterstützt wird.

Synonym
PostRank 10
PostRank 10
Beiträge: 3708
Registriert: 09.08.2008, 02:55

Beitrag von Synonym » 14.09.2011, 08:18

@chris
Ich auch :-) Hatte ja auch nicht geschrieben "meta", sondern nur "noindex" und da gibt es halt mehrere Wege, die nach Rom führen.

Hatte sogar schon genau die gleiche Seite offen, wollte die nur nicht direkt posten. Ein normales "noindex pdf" hätte bei Google genügt und schon der zweite Treffer wäre die Antwort gewesen ;-)

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag