ABAKUS

Verfasst: **19.07.2007, 06:19**

Hallo,

ich habe eine robots.txt für meine domain www*lifestyle-schmuck*de Die kann ja jeder, den es interessiert aufrufen.

Leider ignoriert google Teile der robots.txt. Bei einer site-Abfrage erscheinen auf den vordersten Plätzen z.B. meinedomain/create_account.php oder meinedomain.de/checkout_shipping.php. Auch meinedomain/popup..... usw. wird trotz disallow-Anweisung gelistet.

Habe schon in google webmastertools die urls zum löschen eingegeben - da kam aber einen Tag später die Meldung "abgelehnt".

Nun meine Fragen: Warum ignoriert google die robots-Anweisungen und warum löscht webmastertools diese urls nicht? Bin völlig ratlos

Liebe Grüsse

lala

Verfasst: **19.07.2007, 06:51**

Wenn ich mich nicht irre, will G00gle doch immer persönlich angesprochen werden.

So müsste dann nämlich noch "User-agent: googlebot" da stehen

So wie ich das beurteile, hält sich google bei mir daran.

Gruß, Basti

Verfasst: **19.07.2007, 07:26**

Habe googlebot jetzt mal persönlich angesprochen

Aber warum lassen sich die urls in webmastertools nicht löschen?

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002

persönliche Betreuung
individuelle Beratung
kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.

Verfasst: **19.07.2007, 07:41**

Guck mal:

Führen Sie einen der folgenden Schritte aus, um Inhalte aus dem Google-Index zu entfernen:

Stellen Sie sicher, dass beim Aufrufen der Seite der HTTP-Statuscode 404 oder 410 zurückgegeben wird. [?]
Seite mithilfe einer robots.txt-Datei blockieren [?]
Seite mithilfe eines "noindex"-Meta-Tags blockieren [?]

Punkt 3 ist beim XT-Shop bestimmt etwas schwierig.

Übrigens... Netter Shop... Bastle an meinem Layout auch gerade...

Verfasst: **19.07.2007, 08:34**

Hallo Basti,

kann ja die Seiten create-account.php etc wahrscheinlich nicht mit 404 oder 410 versehen. Die Seiten werden ja gebraucht. In der robots.txt sind sie ja angegeben.

Aber warum webmastertools die Löschung ablehnt, ist wirklich rätselhaft. Hat das schon mal jemand gehabt?

Verfasst: **19.07.2007, 08:36**

rück mal die robots.txt raus. is ja nun kein geheimnis. bei mir funzt das, wenn ich die datein in der robots angebe und anschließend per wmts lösche.

gruß zuendschnur

EDIT: bin auch ein depp... ist ja nun wirklich kein geheimnis.

Disallow: admin/
Disallow: export/
Disallow: download/
Disallow: includes/
Disallow: pub/
Disallow: media/

muss hier nich das noch davor >/

Disallow: /admin/
Disallow: /export/
Disallow: /download/
Disallow: /includes/
Disallow: /pub/
Disallow: /media/

wenn ich bot wäre und das lesen würde:

User-agent: *
User-agent: googlebot
Disallow: /*?XTCsid
Disallow: /*?

würde ich mich an anweisung 1 halten.

so hätte ich freie fahrt. oder habe ich das verkehrt verstanden. gibts weitere meinungen?

Verfasst: **19.07.2007, 11:41**

Das muss doch

Code: Alles auswählen

User-agent&#58; *
Disallow&#58; /*?XTCsid
Disallow&#58; /*? 
User-agent&#58; googlebot
Disallow&#58; /*?XTCsid
Disallow&#58; /*?

aussehen oder? Weil User-agent: googlebot überschreibt doch User-agent: *

Verfasst: **19.07.2007, 11:55**

immer wieder derselbe Irrtum:

dem Googlebot das crwalen verbiten =robots.txt

dies verhindert aber NULL eine Aufnahme in den Index..
das eine hat mit dem anderen direkt nichts zu tun,

noindex und per robots vom crwalen ausschließen ist gemeinsam hilfreich

lg

Verfasst: **22.07.2007, 11:30**

Hallo,

ich wollte keinen Extra-Thread eröffnen, folgendes Problem:

ein vBulletin mit einem ziemlich gut gefüllten Kalender, alle URLs sind statisch.
Leider hat sich der googlebot so in den Kalender verliebt, daß er gar nichts anderes mehr indiziert.

Die Statischen kalenderseiten (Termine!) soll er indizieren, aber den Rest des Kalenders nicht (der bewegt sich immer zwischen 2004-2012, ohne wirklichen Inhalt zu finden).

Meine robots.txt sieht so aus:

User-agent: Googlebot/2.X (+https://www.googlebot.com/bot.html)
Disallow: /forum/calendar.php

Scheint aber nicht wirklich ok zu sein (habe ich mit dem hier angebotenen Tutorial erstellt).

Kann mir jemand bitte helfen, eine korrkte robots.txt zu erstellen?

Vielen Dank im Voraus!

Nachtrag:
der bot crawlt immer in solchen Bereichen:
"https://www.meineseite.tld/forum/calend ... 1079913600"

Verfasst: **22.07.2007, 12:15**

Auszug aus meiner robots.txt für ein vB:

User-agent: *
Disallow: /calendar.php

funktioniert problemlos...

Bei Dir müsste:
Disallow: /forum/calendar.php
ausreichend sein.

Bei mir reichte bisher immer für den Googlebot das ansprechen mit einem *-chen aus. Egal ob vB, Joomla oder anderes.

Verfasst: **22.07.2007, 12:45**

Danke, ich habe das mal so übernommen, und melde mich dann mal, ob wes funktioniert hat.

Verfasst: **22.07.2007, 14:20**

lala hat geschrieben:Leider ignoriert google Teile der robots.txt. Bei einer site-Abfrage erscheinen auf den vordersten Plätzen z.B. meinedomain/create_account.php oder meinedomain.de/checkout_shipping.php. Auch meinedomain/popup..... usw. wird trotz disallow-Anweisung gelistet.

Wenn Du ungeprüft das falsche Format der robots.txt von xtcommerce übernimmst bist Du selber schuld, da kannst Du Google keinen Vorwurf machen. Aber tröste Dich Du bist nicht alleine.

Gruss

Verfasst: **23.07.2007, 12:23**

@ Fox Mulder

was meinst Du denn mit "ungeprüft falsches Format"? Könntest Du mir das bitte näher erklären?

Weiss jemand vielleicht, warum ich die besagten Seiten mit google-Webmastertools nicht löschen kann?

Verfasst: **23.07.2007, 12:56**

"ungeprüft falsches Format"

scheinbar wird die wildcard (*) in urls nicht interpretiert (glaube sie ist dort nicht-standardkonform)

Verfasst: **24.07.2007, 08:40**

ich nochmal:

meine robots.txt sieht jetzt so aus:

User-agent: *
Disallow: /forum/calendar.php
Disallow: /forum/calendar.php?do=displayweek&c=1&week=*
Disallow: /forum/members

gugl hat die Datei am 23.07. verarbeitet.
Leider ist jetzt folgendes passiert:
der crawler spidert weiterhin fleissig im Kalender, z.B. hier:
forum/calendar.php?do=displayweek&c=1&week=1391385600
(das ist Febraur 2014)

Auf der anderen Seite sagen die webmastertools, daß z.B. folgende Pfade eingeschränkt sind durch die robots.txt:

forum/al...n-rund-um-das-musikh%D6ren/calendar.php
/forum/anekdoten-und-begebenheiten/calendar.php
/forum/konzertkritiken/calendar.php

Wie kann ich die robots.txt gestalten, damit:

- der bot die statisch erzeugten Termine spidern kann
- aber nicht planlos im Kalender umherwandert, und sich dort "verbeisst"?

Vielen Dank im Voraus für Eure Hilfe!

ABAKUS

google ignoriert robots.txt

google ignoriert robots.txt

Re: google ignoriert robots.txt

leider nicht das gewünschte Ergebnis