Spielt grub-client etwas verrückt?

Beitrag von **Maschenka** » 19.12.2004, 19:11

In meiner robots.txt wird den Grub-Clients dieser Welt das Spidern meiner Seite verboten. Bisher kam alle paar Tage einer vorbei, hat artig die robots.txt ausgelesen und sich wieder aus dem Staub gemacht. Seit dem 16.12. abends allerdings werden immer wieder Seiten aufgerufen, die seit einem halben Jahr nicht mehr existieren, die robots.txt hingegen gar nicht.

Kann jemand diese Beobachtung bestätigen?

von **Anzeige von ABAKUS** »

Hochwertiger Linkaufbau bei ABAKUS:

Google-konformer Linkaufbau
nachhaltiges Ranking
Linkbuilding Angebote zu fairen Preisen
internationale Backlinks

Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Beitrag von **fool** » 20.12.2004, 12:15

Hallo Maschenka,
direkt bestätigen kann ich das nicht. Hatte aber in der letzten Zeit auch immer wieder zugriffe mit UA grub-client, wo kein Zugriff auf die robots.txt war. Allerdings ist das ja so eine Sache mit grub.
Da gibt es ja nicht unbedingt eine direkte Zuordnung zu einer bestimmten Quelle. Es ist ja ein ziemlich offenes Projekt, an dem sich jeder beteiligen kann und wo auch jeder den bot benutzen kann für seine eigenen Projekte.
So verstehe ich das jedenfalls.

Deshalb ist es einfach wahrscheinlich, dass manche, die die Bot benutzten, sich um die robots.txt nicht weiter scheren und fröhlich rumspidern auf den Seiten.

Wenns dich stört muß du halt per .htaccess sperren und dann sind aber auch alle Zugriffe vom grub-client gesperrt.

Gruß
fool

Beitrag von **Sololand** » 20.12.2004, 16:30

grub muß dringend verboten werden das ist einer der relevaten (boesen) robots ... die machen duplikate von Deiner Seite und Du fliegt aus dem google ..genau kann ich nicht sagen aber potetiell auf jedenfall, der steht bei mir als erster auf der robots.txt

von **Anzeige von ABAKUS** »

Beitrag von **fool** » 20.12.2004, 16:34

@solohand,

aber das hilft dir nichts, wenn der grub-client die robots.txt nicht liest

Beitrag von **fool** » 20.12.2004, 18:06

ach ja, ganz vergessen:

eigentlich müßte das hier in der htaccess helfen:

RewriteCond %{HTTP_USER_AGENT} ^.*grub-client.*$ [OR]

Da ich aber nicht ganz so der Held darin bin -
vielleicht könnte bull da noch mal was zu sagen?

Gruß
fool

Beitrag von **Sunbringer** » 20.12.2004, 18:27

Code: Alles auswählen

RewriteEngine On 
RewriteCond %&#123;HTTP_USER_AGENT&#125; ^grub-client &#91;OR&#93; 
RewriteCond %&#123;HTTP_USER_AGENT&#125; ^grub
RewriteRule ^.* - &#91;F&#93;

weiß nicht welcher grub dir da sorgen macht.

bull ist grade nicht da

Beitrag von **fool** » 20.12.2004, 20:01

Hallo sun,
habe den Thread ja nicht gestartet. So riesige Sorgen macht er mir nicht - aber sich dran halten an die robots.txt tut er wirklich nicht immer. Sonst würde es ja solche Einträge nicht geben (und die gibts dann oft):

64.241.242.18 - - [24/Nov/2004:13:38:54 +0100] "GET / HTTP/1.0" 200 10196 "-" "Mozilla/4.0 (compatible; grub-client-2.3)"

Da nützt ja das hier auch nix in der robots.txt:
User-agent: grub-client
Disallow: /

Schöne Feiertage
fool

Beitrag von **Sunbringer** » 20.12.2004, 20:50

Das ist ein GET-Eintrag... d.h. er kommt erstmal auf die Seite, guckt was so los ist und geht dann wieder.
Nur weil er auftaucht, heisst es nicht, dass er die Seite auch spidert. Dieser Eintrag lässt also erstmal nicht darauf schliessen, dass er sich nciht an die robots-txt hält. Sollten noch weitere Einträge folgen, müsste man das nochmal genauer unter die Lupe nehmen.

Generell würde ich Grub nicht blocken. Gehört zu einer Suchmaschine. Die bringt dir vielleicht nur wenig bis keinen Traffic, aber es ist ein Link... und wir wissen alle: Links sind (meistens

) was gutes

Beitrag von **Maschenka** » 24.12.2004, 16:16

In meinem Fall wurden und werden aber ausschließlich Seiten aus einem Verzeichnis gespidert, das es seit einer Umstrukturierung vor einem halben Jahr nicht mehr gibt, und dieses Verzeichnis ist in der robots.txt ausdrücklich mit disallow gekennzeichnet. Von daher ist die Frage vermutlich schon gerechtfertigt, was ein Crawler will, der sich nicht für aktuell vorhandene Inhalte interessiert und nur unnötig Traffic erzeugt.

Alternativ könnte ich mal testen, was passiert, wenn ich die Aufrufe z.B. alle auf / umleite.