Seite 1 von 1

Spielt grub-client etwas verrückt?

Verfasst: 19.12.2004, 19:11
von Maschenka
In meiner robots.txt wird den Grub-Clients dieser Welt das Spidern meiner Seite verboten. Bisher kam alle paar Tage einer vorbei, hat artig die robots.txt ausgelesen und sich wieder aus dem Staub gemacht. Seit dem 16.12. abends allerdings werden immer wieder Seiten aufgerufen, die seit einem halben Jahr nicht mehr existieren, die robots.txt hingegen gar nicht.

Kann jemand diese Beobachtung bestätigen?

Verfasst:
von

Verfasst: 20.12.2004, 12:15
von fool
Hallo Maschenka,
direkt bestätigen kann ich das nicht. Hatte aber in der letzten Zeit auch immer wieder zugriffe mit UA grub-client, wo kein Zugriff auf die robots.txt war. Allerdings ist das ja so eine Sache mit grub.
Da gibt es ja nicht unbedingt eine direkte Zuordnung zu einer bestimmten Quelle. Es ist ja ein ziemlich offenes Projekt, an dem sich jeder beteiligen kann und wo auch jeder den bot benutzen kann für seine eigenen Projekte.
So verstehe ich das jedenfalls.

Deshalb ist es einfach wahrscheinlich, dass manche, die die Bot benutzten, sich um die robots.txt nicht weiter scheren und fröhlich rumspidern auf den Seiten.

Wenns dich stört muß du halt per .htaccess sperren und dann sind aber auch alle Zugriffe vom grub-client gesperrt.

Gruß
fool

Verfasst: 20.12.2004, 16:30
von Sololand
grub muß dringend verboten werden das ist einer der relevaten (boesen) robots ... die machen duplikate von Deiner Seite und Du fliegt aus dem google ..genau kann ich nicht sagen aber potetiell auf jedenfall, der steht bei mir als erster auf der robots.txt

Verfasst:
von

Verfasst: 20.12.2004, 16:34
von fool
@solohand,

aber das hilft dir nichts, wenn der grub-client die robots.txt nicht liest
:roll:

Verfasst: 20.12.2004, 18:06
von fool
ach ja, ganz vergessen:

eigentlich müßte das hier in der htaccess helfen:

RewriteCond %{HTTP_USER_AGENT} ^.*grub-client.*$ [OR]

Da ich aber nicht ganz so der Held darin bin -
vielleicht könnte bull da noch mal was zu sagen?

Gruß
fool

Verfasst: 20.12.2004, 18:27
von Sunbringer

Code: Alles auswählen

RewriteEngine On 
RewriteCond %{HTTP_USER_AGENT} ^grub-client [OR] 
RewriteCond %{HTTP_USER_AGENT} ^grub
RewriteRule ^.* - [F] 
weiß nicht welcher grub dir da sorgen macht.

bull ist grade nicht da ;)

Verfasst: 20.12.2004, 20:01
von fool
Hallo sun,
habe den Thread ja nicht gestartet. So riesige Sorgen macht er mir nicht - aber sich dran halten an die robots.txt tut er wirklich nicht immer. Sonst würde es ja solche Einträge nicht geben (und die gibts dann oft):

64.241.242.18 - - [24/Nov/2004:13:38:54 +0100] "GET / HTTP/1.0" 200 10196 "-" "Mozilla/4.0 (compatible; grub-client-2.3)"

Da nützt ja das hier auch nix in der robots.txt:
User-agent: grub-client
Disallow: /

Schöne Feiertage
fool

Verfasst: 20.12.2004, 20:50
von Sunbringer
Das ist ein GET-Eintrag... d.h. er kommt erstmal auf die Seite, guckt was so los ist und geht dann wieder.
Nur weil er auftaucht, heisst es nicht, dass er die Seite auch spidert. Dieser Eintrag lässt also erstmal nicht darauf schliessen, dass er sich nciht an die robots-txt hält. Sollten noch weitere Einträge folgen, müsste man das nochmal genauer unter die Lupe nehmen.

Generell würde ich Grub nicht blocken. Gehört zu einer Suchmaschine. Die bringt dir vielleicht nur wenig bis keinen Traffic, aber es ist ein Link... und wir wissen alle: Links sind (meistens ;) ) was gutes ;)

Verfasst: 24.12.2004, 16:16
von Maschenka
In meinem Fall wurden und werden aber ausschließlich Seiten aus einem Verzeichnis gespidert, das es seit einer Umstrukturierung vor einem halben Jahr nicht mehr gibt, und dieses Verzeichnis ist in der robots.txt ausdrücklich mit disallow gekennzeichnet. Von daher ist die Frage vermutlich schon gerechtfertigt, was ein Crawler will, der sich nicht für aktuell vorhandene Inhalte interessiert und nur unnötig Traffic erzeugt.

Alternativ könnte ich mal testen, was passiert, wenn ich die Aufrufe z.B. alle auf / umleite.