Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

robots.txt falsch erstellt?

Hier können Sie Ihre Fragen zum Thema Suchmaschinenoptimierung (SEO) / Positionierung stellen
Neues Thema Antworten
NoNaMe_909
PostRank 2
PostRank 2
Beiträge: 49
Registriert: 30.08.2009, 21:15

Beitrag von NoNaMe_909 » 08.12.2013, 01:21

Es geht um folgende Zeile:
User-agent: *
Disallow: /search/
Disallow: /*archive.html
Allow: /

Aber google löscht aus Index die Archiv Seiten nicht:
https://www.google.de/search?q=site%3Aw ... e&ie=UTF-8

Hat jemand Ideen?

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

jabbadu
PostRank 6
PostRank 6
Beiträge: 453
Registriert: 25.06.2012, 07:48
Wohnort: Bielefeld

Beitrag von jabbadu » 08.12.2013, 09:25

wenn die einmal drin sind hilft oftmals nur manuelles löschen.
Webmaster Tools -> Google Index - URLs entfernen

Thomas B.
PostRank 4
PostRank 4
Beiträge: 137
Registriert: 11.09.2013, 21:04
Wohnort: München

Beitrag von Thomas B. » 08.12.2013, 10:58

Code: Alles auswählen

User-agent: *
Disallow: /search/
Disallow: /*archive.html
Allow: /
Ein Bot macht das was du ihm sagst und mit der letzten Zeile hebst du die disallow Regeln wieder auf. Allow selber solltest du auch nicht nutzen da es nicht von allen Bots verstanden wird, genauso wie *.

Code: Alles auswählen

User-agent: *
Disallow: /search/
Disallow: /*archive.html$

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Waelti
PostRank 1
PostRank 1
Beiträge: 28
Registriert: 02.12.2002, 12:46

Beitrag von Waelti » 08.12.2013, 11:28

Nun, die robots.txt dient dazu, dass Seiten gecrawlt (oder nicht gecrawlt) werden. (Falls sich der jeweilige Bot an die Angaben hält.)

Im Index befindliche Seiten werden durch das "nicht crawlen" *nicht* aus dem Index entfernt.
Ich habe teilweise in bestimmten Kategorien im Header folgendes drin:

<meta name='robots' content='noindex,follow'/>


Funzt soweit, manchmal dauert das ein bisschen. Teilweise mehrere Wochen bis bereits indexierte Seiten wieder aus dem Index entfernt werden.

Waelti
PostRank 1
PostRank 1
Beiträge: 28
Registriert: 02.12.2002, 12:46

Beitrag von Waelti » 08.12.2013, 11:34

uups, noch ein Nachtrag:

Wenn der Crawler per robots.txt ausgesperrt ist, dann wird er den "Noindex" Header nicht oder sehr lange nicht entdecken...

Kristian
PostRank 9
PostRank 9
Beiträge: 1484
Registriert: 20.07.2005, 16:30

Beitrag von Kristian » 08.12.2013, 13:04

Thomas B. hat geschrieben:

Code: Alles auswählen

User-agent&#58; *
Disallow&#58; /search/
Disallow&#58; /*archive.html
Allow&#58; /
Ein Bot macht das was du ihm sagst und mit der letzten Zeile hebst du die disallow Regeln wieder auf. Allow selber solltest du auch nicht nutzen da es nicht von allen Bots verstanden wird, genauso wie *.

Code: Alles auswählen

User-agent&#58; *
Disallow&#58; /search/
Disallow&#58; /*archive.html$
Ich schätze deine Meinung, wir kommen aus dem gleichen Lager.
Aber, lies bei G. nochmal nach was die wirklich machen.
Die Rules für die robots.txt sind recht aufgeweicht, G. hält sich dran, es sei denn, die Seite ist irgendwo verlinkt.
Guckst du: https://support.google.com/webmasters/a ... 6449?hl=de
Der Titel ist noch der alte, das Verhalten aber eindeutig nicht.
Klar, Allow gibt es nicht und und und...
Hilft aber nichts, "Robots Exclusion Standard" ist halt nur eine Idee, die von Leuten wie dir und mir hochgehalten wird.
Die Wirklichkeit ist anders. Ein metatag robots noindex wirkt noch so, wie der Eintrag in der robots.txt wirken sollte.
Ach so, ich rede jetzt nur von G,. den Rest kann man aber auch....
Seo-Check Biete Links zu Schmuck und Hochzeit sowie Artikelplätze für Firmen allgemein.

Waelti
PostRank 1
PostRank 1
Beiträge: 28
Registriert: 02.12.2002, 12:46

Beitrag von Waelti » 08.12.2013, 13:53

@kristian

nu: metatag "noindex" und das disallow in robots.txt können die gleiche Wirkung haben: Seiten landen nicht im index.

robots.txt kann aber *nicht* zum Entfernen von Seiten aus dem Index verwendet werden. Der Metatag "noindex" schon. Und es geht ja um das Entfernen von Seiten aus dem Index und nicht um das "nicht aufnehmen in den Index"?

Kristian
PostRank 9
PostRank 9
Beiträge: 1484
Registriert: 20.07.2005, 16:30

Beitrag von Kristian » 08.12.2013, 13:58

Waelti hat geschrieben:@kristian

nu: metatag "noindex" und das disallow in robots.txt können die gleiche Wirkung haben: Seiten landen nicht im index.

robots.txt kann aber *nicht* zum Entfernen von Seiten aus dem Index verwendet werden. Der Metatag "noindex" schon. Und es geht ja um das Entfernen von Seiten aus dem Index und nicht um das "nicht aufnehmen in den Index"?
Ich stimme dir voll und ganz zu.
"können die gleich Wirkung haben", wenn man es vorher macht und die Seiten nicht (von extern) verlinkt werden.
Zum Entfernen hilft der Metatag, ein Eintrag in der robots.txt bremst da eher.
(Die Annahme hier, dass man beides macht.)
Mein Post, mehr oder minder an Thomas gerichtet, hatte die Zielsetzung ihn "zu updaten".
Seo-Check Biete Links zu Schmuck und Hochzeit sowie Artikelplätze für Firmen allgemein.

Kristian
PostRank 9
PostRank 9
Beiträge: 1484
Registriert: 20.07.2005, 16:30

Beitrag von Kristian » 08.12.2013, 14:09

Mal generell zu dem Thema, auch wenn es an der Zielsetzung von NoNaMe_909 vorbei geht.
Ich würde mir wünschen, dass sich mehr Leute Ihre Seiten aus Sicht eines Bots ansehen.
Ich glaube ich schreibe mal nen lustigen Schwank aus dem Leben eines solchen Bots und verlinke das hier wenn's fertig ist ;-)
Seo-Check Biete Links zu Schmuck und Hochzeit sowie Artikelplätze für Firmen allgemein.

NoNaMe_909
PostRank 2
PostRank 2
Beiträge: 49
Registriert: 30.08.2009, 21:15

Beitrag von NoNaMe_909 » 08.12.2013, 20:20

Thomas B. hat geschrieben:

Code: Alles auswählen

User-agent&#58; *
Disallow&#58; /search/
Disallow&#58; /*archive.html
Allow&#58; /
Ein Bot macht das was du ihm sagst und mit der letzten Zeile hebst du die disallow Regeln wieder auf. Allow selber solltest du auch nicht nutzen da es nicht von allen Bots verstanden wird, genauso wie *.

Code: Alles auswählen

User-agent&#58; *
Disallow&#58; /search/
Disallow&#58; /*archive.html$
Stimmt, Allow macht hier keinen Sinn, das habe ich übersehen und nun gelöscht, danke.

NoNaMe_909
PostRank 2
PostRank 2
Beiträge: 49
Registriert: 30.08.2009, 21:15

Beitrag von NoNaMe_909 » 08.12.2013, 20:22

jabbadu hat geschrieben:wenn die einmal drin sind hilft oftmals nur manuelles löschen.
Webmaster Tools -> Google Index - URLs entfernen
Danke, gute Idee!

luzie
PostRank 10
PostRank 10
Beiträge: 4228
Registriert: 12.07.2007, 13:43
Wohnort: Hannover, Linden-Nord

Beitrag von luzie » 09.12.2013, 10:02

Kristian hat geschrieben: ... "Robots Exclusion Standard" ist halt nur eine Idee, die von Leuten wie dir und mir hochgehalten wird.
Vergiss das GANZ schnell. Robots Exclusion Standard ist der Grundlagenvertrag zwischen Websites und Suchmaschinen und Google hält sich sklavisch an diesen Standard. Täten sie es nicht, wäre ihr Geschäft ganz schnell nur noch Makulatur, unwillige Website-Betreiber könnten sie wegen Urheberrechtsverletzung sofort in Grund und Boden klagen. Das können sie nur deshalb nicht, weil Robots Exclusion Standard jederzeit den Ausstieg aus der Suchmaschine erlaubt.

Kristian
PostRank 9
PostRank 9
Beiträge: 1484
Registriert: 20.07.2005, 16:30

Beitrag von Kristian » 09.12.2013, 11:25

luzie hat geschrieben:
Kristian hat geschrieben: ... "Robots Exclusion Standard" ist halt nur eine Idee, die von Leuten wie dir und mir hochgehalten wird.
Vergiss das GANZ schnell. Robots Exclusion Standard ist der Grundlagenvertrag zwischen Websites und Suchmaschinen und Google hält sich sklavisch an diesen Standard. Täten sie es nicht, wäre ihr Geschäft ganz schnell nur noch Makulatur, unwillige Website-Betreiber könnten sie wegen Urheberrechtsverletzung sofort in Grund und Boden klagen. Das können sie nur deshalb nicht, weil Robots Exclusion Standard jederzeit den Ausstieg aus der Suchmaschine erlaubt.
OK, das habe ich zu hart formuliert, aber..

Den Text kennst du aus den Serps?
"Aufgrund der robots.txt dieser Website ist keine Beschreibung für dieses Ergebnis verfügbar."

Zitat von Google:
"Zwar werden die Inhalte der Seiten, die durch die Datei "robots.txt" blockiert sind, weder gecrawlt noch indexiert, möglicherweise erfolgt jedoch dennoch eine Indexierung der URLs, falls diese auf anderen Webseiten gefunden werden. Folglich können die URL der Seite und eventuell auch andere öffentlich verfügbare Informationen wie z. B. der Ankertext in Links zu der Website oder der Titel des Open Directory Project (www.dmoz.org) in den Google-Suchergebnissen angezeigt werden."

Genau das meine ich mit aufweichen.
Den Ausstieg aus der Suchmaschine schafft man derzeit nur mit dem MetaTag noindex.
Seo-Check Biete Links zu Schmuck und Hochzeit sowie Artikelplätze für Firmen allgemein.

Thomas B.
PostRank 4
PostRank 4
Beiträge: 137
Registriert: 11.09.2013, 21:04
Wohnort: München

Beitrag von Thomas B. » 09.12.2013, 23:51

Kristian hat geschrieben:...
Ich schätze deine Meinung, wir kommen aus dem gleichen Lager.
...
Wie meinst du das? Aus welchem Lager? Aber Danke für die Info.

luzie
PostRank 10
PostRank 10
Beiträge: 4228
Registriert: 12.07.2007, 13:43
Wohnort: Hannover, Linden-Nord

Beitrag von luzie » 10.12.2013, 11:24

Kristian hat geschrieben:"Zwar werden die Inhalte der Seiten, die durch die Datei "robots.txt" blockiert sind, weder gecrawlt noch indexiert, möglicherweise erfolgt jedoch dennoch eine Indexierung der URLs, falls diese auf anderen Webseiten gefunden werden.
Ja, ich weiss, ich finde das auch lästig - aber es steht immer noch in vollem Einklang mit dem Standard - wenn man's durchdenkt.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag