Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Spielt grub-client etwas verrückt?

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
Maschenka
PostRank 3
PostRank 3
Beiträge: 98
Registriert: 19.11.2004, 16:38

Beitrag von Maschenka » 19.12.2004, 19:11

In meiner robots.txt wird den Grub-Clients dieser Welt das Spidern meiner Seite verboten. Bisher kam alle paar Tage einer vorbei, hat artig die robots.txt ausgelesen und sich wieder aus dem Staub gemacht. Seit dem 16.12. abends allerdings werden immer wieder Seiten aufgerufen, die seit einem halben Jahr nicht mehr existieren, die robots.txt hingegen gar nicht.

Kann jemand diese Beobachtung bestätigen?

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

fool
PostRank 5
PostRank 5
Beiträge: 200
Registriert: 28.03.2004, 12:12

Beitrag von fool » 20.12.2004, 12:15

Hallo Maschenka,
direkt bestätigen kann ich das nicht. Hatte aber in der letzten Zeit auch immer wieder zugriffe mit UA grub-client, wo kein Zugriff auf die robots.txt war. Allerdings ist das ja so eine Sache mit grub.
Da gibt es ja nicht unbedingt eine direkte Zuordnung zu einer bestimmten Quelle. Es ist ja ein ziemlich offenes Projekt, an dem sich jeder beteiligen kann und wo auch jeder den bot benutzen kann für seine eigenen Projekte.
So verstehe ich das jedenfalls.

Deshalb ist es einfach wahrscheinlich, dass manche, die die Bot benutzten, sich um die robots.txt nicht weiter scheren und fröhlich rumspidern auf den Seiten.

Wenns dich stört muß du halt per .htaccess sperren und dann sind aber auch alle Zugriffe vom grub-client gesperrt.

Gruß
fool

Sololand
PostRank 7
PostRank 7
Beiträge: 544
Registriert: 28.11.2004, 01:03

Beitrag von Sololand » 20.12.2004, 16:30

grub muß dringend verboten werden das ist einer der relevaten (boesen) robots ... die machen duplikate von Deiner Seite und Du fliegt aus dem google ..genau kann ich nicht sagen aber potetiell auf jedenfall, der steht bei mir als erster auf der robots.txt

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


fool
PostRank 5
PostRank 5
Beiträge: 200
Registriert: 28.03.2004, 12:12

Beitrag von fool » 20.12.2004, 16:34

@solohand,

aber das hilft dir nichts, wenn der grub-client die robots.txt nicht liest
:roll:

fool
PostRank 5
PostRank 5
Beiträge: 200
Registriert: 28.03.2004, 12:12

Beitrag von fool » 20.12.2004, 18:06

ach ja, ganz vergessen:

eigentlich müßte das hier in der htaccess helfen:

RewriteCond %{HTTP_USER_AGENT} ^.*grub-client.*$ [OR]

Da ich aber nicht ganz so der Held darin bin -
vielleicht könnte bull da noch mal was zu sagen?

Gruß
fool

Sunbringer
PostRank 5
PostRank 5
Beiträge: 220
Registriert: 07.09.2004, 13:19

Beitrag von Sunbringer » 20.12.2004, 18:27

Code: Alles auswählen

RewriteEngine On 
RewriteCond %{HTTP_USER_AGENT} ^grub-client [OR] 
RewriteCond %{HTTP_USER_AGENT} ^grub
RewriteRule ^.* - [F] 
weiß nicht welcher grub dir da sorgen macht.

bull ist grade nicht da ;)

fool
PostRank 5
PostRank 5
Beiträge: 200
Registriert: 28.03.2004, 12:12

Beitrag von fool » 20.12.2004, 20:01

Hallo sun,
habe den Thread ja nicht gestartet. So riesige Sorgen macht er mir nicht - aber sich dran halten an die robots.txt tut er wirklich nicht immer. Sonst würde es ja solche Einträge nicht geben (und die gibts dann oft):

64.241.242.18 - - [24/Nov/2004:13:38:54 +0100] "GET / HTTP/1.0" 200 10196 "-" "Mozilla/4.0 (compatible; grub-client-2.3)"

Da nützt ja das hier auch nix in der robots.txt:
User-agent: grub-client
Disallow: /

Schöne Feiertage
fool

Sunbringer
PostRank 5
PostRank 5
Beiträge: 220
Registriert: 07.09.2004, 13:19

Beitrag von Sunbringer » 20.12.2004, 20:50

Das ist ein GET-Eintrag... d.h. er kommt erstmal auf die Seite, guckt was so los ist und geht dann wieder.
Nur weil er auftaucht, heisst es nicht, dass er die Seite auch spidert. Dieser Eintrag lässt also erstmal nicht darauf schliessen, dass er sich nciht an die robots-txt hält. Sollten noch weitere Einträge folgen, müsste man das nochmal genauer unter die Lupe nehmen.

Generell würde ich Grub nicht blocken. Gehört zu einer Suchmaschine. Die bringt dir vielleicht nur wenig bis keinen Traffic, aber es ist ein Link... und wir wissen alle: Links sind (meistens ;) ) was gutes ;)

Maschenka
PostRank 3
PostRank 3
Beiträge: 98
Registriert: 19.11.2004, 16:38

Beitrag von Maschenka » 24.12.2004, 16:16

In meinem Fall wurden und werden aber ausschließlich Seiten aus einem Verzeichnis gespidert, das es seit einer Umstrukturierung vor einem halben Jahr nicht mehr gibt, und dieses Verzeichnis ist in der robots.txt ausdrücklich mit disallow gekennzeichnet. Von daher ist die Frage vermutlich schon gerechtfertigt, was ein Crawler will, der sich nicht für aktuell vorhandene Inhalte interessiert und nur unnötig Traffic erzeugt.

Alternativ könnte ich mal testen, was passiert, wenn ich die Aufrufe z.B. alle auf / umleite.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag