Seite 1 von 2
google ignoriert robots.txt
Verfasst: 19.07.2007, 06:19
von lala
Hallo,
ich habe eine robots.txt für meine domain www*lifestyle-schmuck*de Die kann ja jeder, den es interessiert aufrufen.
Leider ignoriert google Teile der robots.txt. Bei einer site-Abfrage erscheinen auf den vordersten Plätzen z.B. meinedomain/create_account.php oder meinedomain.de/checkout_shipping.php. Auch meinedomain/popup..... usw. wird trotz disallow-Anweisung gelistet.
Habe schon in google webmastertools die urls zum löschen eingegeben - da kam aber einen Tag später die Meldung "abgelehnt".
Nun meine Fragen: Warum ignoriert google die robots-Anweisungen und warum löscht webmastertools diese urls nicht? Bin völlig ratlos
Liebe Grüsse
lala
Verfasst:
von
Content Erstellung von
ABAKUS Internet Marketing
Ihre Vorteile:
- einzigartige Texte
- suchmaschinenoptimierte Inhalte
- eine sinnvolle Content-Strategie
- Beratung und Umsetzung
Jetzt anfragen:
0511 / 300325-0
Verfasst: 19.07.2007, 06:51
von Basti
Wenn ich mich nicht irre, will G00gle doch immer persönlich angesprochen werden.
So müsste dann nämlich noch "User-agent: googlebot" da stehen
So wie ich das beurteile, hält sich google bei mir daran.
Gruß, Basti
Verfasst: 19.07.2007, 07:26
von lala
Habe googlebot jetzt mal persönlich angesprochen
Aber warum lassen sich die urls in webmastertools nicht löschen?
Verfasst:
von
SEO Consulting bei
ABAKUS Internet Marketing Erfahrung seit 2002
- persönliche Betreuung
- individuelle Beratung
- kompetente Umsetzung
Jetzt anfragen:
0511 / 300325-0.
Verfasst: 19.07.2007, 07:41
von Basti
Guck mal:
Führen Sie einen der folgenden Schritte aus, um Inhalte aus dem Google-Index zu entfernen:
Stellen Sie sicher, dass beim Aufrufen der Seite der HTTP-Statuscode 404 oder 410 zurückgegeben wird. [?]
Seite mithilfe einer robots.txt-Datei blockieren [?]
Seite mithilfe eines "noindex"-Meta-Tags blockieren [?]
Punkt 3 ist beim XT-Shop bestimmt etwas schwierig.
Übrigens... Netter Shop... Bastle an meinem Layout auch gerade...
Verfasst: 19.07.2007, 08:34
von lala
Hallo Basti,
kann ja die Seiten create-account.php etc wahrscheinlich nicht mit 404 oder 410 versehen. Die Seiten werden ja gebraucht. In der robots.txt sind sie ja angegeben.
Aber warum webmastertools die Löschung ablehnt, ist wirklich rätselhaft. Hat das schon mal jemand gehabt?
Verfasst: 19.07.2007, 08:36
von Ehemalige Nutzer Z
rück mal die robots.txt raus. is ja nun kein geheimnis. bei mir funzt das, wenn ich die datein in der robots angebe und anschließend per wmts lösche.
gruß zuendschnur
EDIT: bin auch ein depp... ist ja nun wirklich kein geheimnis.
Disallow: admin/
Disallow: export/
Disallow: download/
Disallow: includes/
Disallow: pub/
Disallow: media/
muss hier nich das noch davor >/
Disallow: /admin/
Disallow: /export/
Disallow: /download/
Disallow: /includes/
Disallow: /pub/
Disallow: /media/
wenn ich bot wäre und das lesen würde:
User-agent: *
User-agent: googlebot
Disallow: /*?XTCsid
Disallow: /*?
würde ich mich an anweisung 1 halten.

so hätte ich freie fahrt. oder habe ich das verkehrt verstanden. gibts weitere meinungen?
Verfasst: 19.07.2007, 11:41
von dusty
Das muss doch
Code: Alles auswählen
User-agent: *
Disallow: /*?XTCsid
Disallow: /*?
User-agent: googlebot
Disallow: /*?XTCsid
Disallow: /*?
aussehen oder? Weil User-agent: googlebot überschreibt doch User-agent: *
Verfasst: 19.07.2007, 11:55
von MonikaTS
immer wieder derselbe Irrtum:
dem Googlebot das crwalen verbiten =robots.txt
dies verhindert aber NULL eine Aufnahme in den Index..
das eine hat mit dem anderen direkt nichts zu tun,
noindex und per robots vom crwalen ausschließen ist gemeinsam hilfreich
lg
Verfasst: 22.07.2007, 11:30
von Holger Grintz
Hallo,
ich wollte keinen Extra-Thread eröffnen, folgendes Problem:
ein vBulletin mit einem ziemlich gut gefüllten Kalender, alle URLs sind statisch.
Leider hat sich der googlebot so in den Kalender verliebt, daß er gar nichts anderes mehr indiziert.
Die Statischen kalenderseiten (Termine!) soll er indizieren, aber den Rest des Kalenders nicht (der bewegt sich immer zwischen 2004-2012, ohne wirklichen Inhalt zu finden).
Meine robots.txt sieht so aus:
Scheint aber nicht wirklich ok zu sein (habe ich mit dem hier angebotenen Tutorial erstellt).
Kann mir jemand bitte helfen, eine korrkte robots.txt zu erstellen?
Vielen Dank im Voraus!
Nachtrag:
der bot crawlt immer in solchen Bereichen:
"
https://www.meineseite.tld/forum/calend ... 1079913600"
Verfasst: 22.07.2007, 12:15
von Manny
Auszug aus meiner robots.txt für ein vB:
User-agent: *
Disallow: /calendar.php
funktioniert problemlos...
Bei Dir müsste:
Disallow: /forum/calendar.php
ausreichend sein.
Bei mir reichte bisher immer für den Googlebot das ansprechen mit einem *-chen aus. Egal ob vB, Joomla oder anderes.

Verfasst: 22.07.2007, 12:45
von Holger Grintz
Danke, ich habe das mal so übernommen, und melde mich dann mal, ob wes funktioniert hat.
Re: google ignoriert robots.txt
Verfasst: 22.07.2007, 14:20
von Fox Mulder
lala hat geschrieben:Leider ignoriert google Teile der robots.txt. Bei einer site-Abfrage erscheinen auf den vordersten Plätzen z.B. meinedomain/create_account.php oder meinedomain.de/checkout_shipping.php. Auch meinedomain/popup..... usw. wird trotz disallow-Anweisung gelistet.
Wenn Du ungeprüft das falsche Format der robots.txt von xtcommerce übernimmst bist Du selber schuld, da kannst Du Google keinen Vorwurf machen. Aber tröste Dich Du bist nicht alleine.
Gruss
Verfasst: 23.07.2007, 12:23
von lala
@ Fox Mulder
was meinst Du denn mit "ungeprüft falsches Format"? Könntest Du mir das bitte näher erklären?
Weiss jemand vielleicht, warum ich die besagten Seiten mit google-Webmastertools nicht löschen kann?
Verfasst: 23.07.2007, 12:56
von luzie
"ungeprüft falsches Format"
scheinbar wird die wildcard (*) in urls nicht interpretiert (glaube sie ist dort nicht-standardkonform)
leider nicht das gewünschte Ergebnis
Verfasst: 24.07.2007, 08:40
von Holger Grintz
ich nochmal:
meine robots.txt sieht jetzt so aus:
User-agent: *
Disallow: /forum/calendar.php
Disallow: /forum/calendar.php?do=displayweek&c=1&week=*
Disallow: /forum/members
gugl hat die Datei am 23.07. verarbeitet.
Leider ist jetzt folgendes passiert:
der crawler spidert weiterhin fleissig im Kalender, z.B. hier:
forum/calendar.php?do=displayweek&c=1&week=1391385600
(das ist Febraur 2014)
Auf der anderen Seite sagen die webmastertools, daß z.B. folgende Pfade eingeschränkt sind durch die robots.txt:
forum/al...n-rund-um-das-musikh%D6ren/calendar.php
/forum/anekdoten-und-begebenheiten/calendar.php
/forum/konzertkritiken/calendar.php
Wie kann ich die robots.txt gestalten, damit:
- der bot die statisch erzeugten Termine spidern kann
- aber nicht planlos im Kalender umherwandert, und sich dort "verbeisst"?
Vielen Dank im Voraus für Eure Hilfe!