Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

google ignoriert robots.txt

Dieses Forum ist für Informationen über Google gedacht (Ausser PageRank!).
lala
PostRank 6
PostRank 6
Beiträge: 383
Registriert: 18.02.2004, 08:25
Wohnort: Bayern

Beitrag von lala » 19.07.2007, 06:19

Hallo,

ich habe eine robots.txt für meine domain www*lifestyle-schmuck*de Die kann ja jeder, den es interessiert aufrufen.

Leider ignoriert google Teile der robots.txt. Bei einer site-Abfrage erscheinen auf den vordersten Plätzen z.B. meinedomain/create_account.php oder meinedomain.de/checkout_shipping.php. Auch meinedomain/popup..... usw. wird trotz disallow-Anweisung gelistet.

Habe schon in google webmastertools die urls zum löschen eingegeben - da kam aber einen Tag später die Meldung "abgelehnt".

Nun meine Fragen: Warum ignoriert google die robots-Anweisungen und warum löscht webmastertools diese urls nicht? Bin völlig ratlos :-(

Liebe Grüsse

lala
Suche noch Linkpartner zu den Bereichen Schmuck, Mode u.Ä. Bei Interesse bitte einfach per PN melden.

Kostenloser Webkatalog
https://www.verzeichnis-eintrag.de
Seiten zum Thema Luxus kostenlos eintragen auf https://www.luxus-exklusiv.de Bitte nur themenbezogene Seiten!

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Basti
PostRank 1
PostRank 1
Beiträge: 11
Registriert: 06.08.2006, 14:31

Beitrag von Basti » 19.07.2007, 06:51

Wenn ich mich nicht irre, will G00gle doch immer persönlich angesprochen werden.

So müsste dann nämlich noch "User-agent: googlebot" da stehen

So wie ich das beurteile, hält sich google bei mir daran.

Gruß, Basti

lala
PostRank 6
PostRank 6
Beiträge: 383
Registriert: 18.02.2004, 08:25
Wohnort: Bayern

Beitrag von lala » 19.07.2007, 07:26

Habe googlebot jetzt mal persönlich angesprochen ;-)

Aber warum lassen sich die urls in webmastertools nicht löschen?
Suche noch Linkpartner zu den Bereichen Schmuck, Mode u.Ä. Bei Interesse bitte einfach per PN melden.

Kostenloser Webkatalog
https://www.verzeichnis-eintrag.de
Seiten zum Thema Luxus kostenlos eintragen auf https://www.luxus-exklusiv.de Bitte nur themenbezogene Seiten!

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Basti
PostRank 1
PostRank 1
Beiträge: 11
Registriert: 06.08.2006, 14:31

Beitrag von Basti » 19.07.2007, 07:41

Guck mal:

Führen Sie einen der folgenden Schritte aus, um Inhalte aus dem Google-Index zu entfernen:

Stellen Sie sicher, dass beim Aufrufen der Seite der HTTP-Statuscode 404 oder 410 zurückgegeben wird. [?]
Seite mithilfe einer robots.txt-Datei blockieren [?]
Seite mithilfe eines "noindex"-Meta-Tags blockieren [?]

Punkt 3 ist beim XT-Shop bestimmt etwas schwierig.

Übrigens... Netter Shop... Bastle an meinem Layout auch gerade...

lala
PostRank 6
PostRank 6
Beiträge: 383
Registriert: 18.02.2004, 08:25
Wohnort: Bayern

Beitrag von lala » 19.07.2007, 08:34

Hallo Basti,

kann ja die Seiten create-account.php etc wahrscheinlich nicht mit 404 oder 410 versehen. Die Seiten werden ja gebraucht. In der robots.txt sind sie ja angegeben.

Aber warum webmastertools die Löschung ablehnt, ist wirklich rätselhaft. Hat das schon mal jemand gehabt?
Suche noch Linkpartner zu den Bereichen Schmuck, Mode u.Ä. Bei Interesse bitte einfach per PN melden.

Kostenloser Webkatalog
https://www.verzeichnis-eintrag.de
Seiten zum Thema Luxus kostenlos eintragen auf https://www.luxus-exklusiv.de Bitte nur themenbezogene Seiten!

Anonymous

Beitrag von Anonymous » 19.07.2007, 08:36

rück mal die robots.txt raus. is ja nun kein geheimnis. bei mir funzt das, wenn ich die datein in der robots angebe und anschließend per wmts lösche.

gruß zuendschnur

EDIT: bin auch ein depp... ist ja nun wirklich kein geheimnis. :)

Disallow: admin/
Disallow: export/
Disallow: download/
Disallow: includes/
Disallow: pub/
Disallow: media/

muss hier nich das noch davor >/

Disallow: /admin/
Disallow: /export/
Disallow: /download/
Disallow: /includes/
Disallow: /pub/
Disallow: /media/

wenn ich bot wäre und das lesen würde:

User-agent: *
User-agent: googlebot
Disallow: /*?XTCsid
Disallow: /*?

würde ich mich an anweisung 1 halten. :D
so hätte ich freie fahrt. oder habe ich das verkehrt verstanden. gibts weitere meinungen?

dusty
PostRank 3
PostRank 3
Beiträge: 90
Registriert: 03.06.2006, 18:35
Wohnort: Freiburg

Beitrag von dusty » 19.07.2007, 11:41

Das muss doch

Code: Alles auswählen

User-agent: *
Disallow: /*?XTCsid
Disallow: /*? 
User-agent: googlebot
Disallow: /*?XTCsid
Disallow: /*? 
aussehen oder? Weil User-agent: googlebot überschreibt doch User-agent: *
Grüße

Dusty

Lexware Support

MonikaTS
PostRank 10
PostRank 10
Beiträge: 3582
Registriert: 07.10.2005, 09:05

Beitrag von MonikaTS » 19.07.2007, 11:55

immer wieder derselbe Irrtum:

dem Googlebot das crwalen verbiten =robots.txt

dies verhindert aber NULL eine Aufnahme in den Index..
das eine hat mit dem anderen direkt nichts zu tun,

noindex und per robots vom crwalen ausschließen ist gemeinsam hilfreich


lg

Holger Grintz
PostRank 5
PostRank 5
Beiträge: 240
Registriert: 04.05.2007, 08:48
Wohnort: Köln

Beitrag von Holger Grintz » 22.07.2007, 11:30

Hallo,

ich wollte keinen Extra-Thread eröffnen, folgendes Problem:

ein vBulletin mit einem ziemlich gut gefüllten Kalender, alle URLs sind statisch.
Leider hat sich der googlebot so in den Kalender verliebt, daß er gar nichts anderes mehr indiziert.

Die Statischen kalenderseiten (Termine!) soll er indizieren, aber den Rest des Kalenders nicht (der bewegt sich immer zwischen 2004-2012, ohne wirklichen Inhalt zu finden).

Meine robots.txt sieht so aus:
User-agent: Googlebot/2.X (+https://www.googlebot.com/bot.html)
Disallow: /forum/calendar.php
Scheint aber nicht wirklich ok zu sein (habe ich mit dem hier angebotenen Tutorial erstellt).

Kann mir jemand bitte helfen, eine korrkte robots.txt zu erstellen?

Vielen Dank im Voraus!

Nachtrag:
der bot crawlt immer in solchen Bereichen:
"https://www.meineseite.tld/forum/calend ... 1079913600"

Manny
PostRank 4
PostRank 4
Beiträge: 117
Registriert: 24.03.2007, 16:05

Beitrag von Manny » 22.07.2007, 12:15

Auszug aus meiner robots.txt für ein vB:

User-agent: *
Disallow: /calendar.php

funktioniert problemlos...

Bei Dir müsste:
Disallow: /forum/calendar.php
ausreichend sein.

Bei mir reichte bisher immer für den Googlebot das ansprechen mit einem *-chen aus. Egal ob vB, Joomla oder anderes. :o

Holger Grintz
PostRank 5
PostRank 5
Beiträge: 240
Registriert: 04.05.2007, 08:48
Wohnort: Köln

Beitrag von Holger Grintz » 22.07.2007, 12:45

Danke, ich habe das mal so übernommen, und melde mich dann mal, ob wes funktioniert hat.

Fox Mulder
PostRank 8
PostRank 8
Beiträge: 804
Registriert: 16.11.2004, 09:06

Beitrag von Fox Mulder » 22.07.2007, 14:20

lala hat geschrieben:Leider ignoriert google Teile der robots.txt. Bei einer site-Abfrage erscheinen auf den vordersten Plätzen z.B. meinedomain/create_account.php oder meinedomain.de/checkout_shipping.php. Auch meinedomain/popup..... usw. wird trotz disallow-Anweisung gelistet.
Wenn Du ungeprüft das falsche Format der robots.txt von xtcommerce übernimmst bist Du selber schuld, da kannst Du Google keinen Vorwurf machen. Aber tröste Dich Du bist nicht alleine.

Gruss

lala
PostRank 6
PostRank 6
Beiträge: 383
Registriert: 18.02.2004, 08:25
Wohnort: Bayern

Beitrag von lala » 23.07.2007, 12:23

@ Fox Mulder

was meinst Du denn mit "ungeprüft falsches Format"? Könntest Du mir das bitte näher erklären?

Weiss jemand vielleicht, warum ich die besagten Seiten mit google-Webmastertools nicht löschen kann?
Suche noch Linkpartner zu den Bereichen Schmuck, Mode u.Ä. Bei Interesse bitte einfach per PN melden.

Kostenloser Webkatalog
https://www.verzeichnis-eintrag.de
Seiten zum Thema Luxus kostenlos eintragen auf https://www.luxus-exklusiv.de Bitte nur themenbezogene Seiten!

luzie
PostRank 10
PostRank 10
Beiträge: 4228
Registriert: 12.07.2007, 13:43
Wohnort: Hannover, Linden-Nord

Beitrag von luzie » 23.07.2007, 12:56

"ungeprüft falsches Format"

scheinbar wird die wildcard (*) in urls nicht interpretiert (glaube sie ist dort nicht-standardkonform)
Bilduzie - [url=httpss://plus.google.com/+HerbertSulzer/about]Google Official Bionic Top Contributor on Google Webmaster Central[/url]

Holger Grintz
PostRank 5
PostRank 5
Beiträge: 240
Registriert: 04.05.2007, 08:48
Wohnort: Köln

Beitrag von Holger Grintz » 24.07.2007, 08:40

ich nochmal:

meine robots.txt sieht jetzt so aus:
User-agent: *
Disallow: /forum/calendar.php
Disallow: /forum/calendar.php?do=displayweek&c=1&week=*
Disallow: /forum/members
gugl hat die Datei am 23.07. verarbeitet.
Leider ist jetzt folgendes passiert:
der crawler spidert weiterhin fleissig im Kalender, z.B. hier:
forum/calendar.php?do=displayweek&c=1&week=1391385600
(das ist Febraur 2014) :D

Auf der anderen Seite sagen die webmastertools, daß z.B. folgende Pfade eingeschränkt sind durch die robots.txt:

forum/al...n-rund-um-das-musikh%D6ren/calendar.php
/forum/anekdoten-und-begebenheiten/calendar.php
/forum/konzertkritiken/calendar.php

Wie kann ich die robots.txt gestalten, damit:

- der bot die statisch erzeugten Termine spidern kann
- aber nicht planlos im Kalender umherwandert, und sich dort "verbeisst"?

Vielen Dank im Voraus für Eure Hilfe!

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag