Seite 1 von 1

ThumbShots-Bot

Verfasst: 29.01.2008, 19:11
von Kristian
Hallo

Dieses Biest treibt sein Unwesen mit diversen Einwahl-IP's derzeit sind es noch ausschliesslich die der Telekomiker.
Was macht der? Er liest die robots.txt und fragt so um Erlaubnis ob er denn einen ThumbShot machen darf. Der Browser, der wo zum Bilder-Knipsen gebraucht wird kommt direkt hinterher. Gleiche IP aber Kennung eines FF.
Zum Aussperren reicht in der robots.txt ein Useragent der das Wort thumbshot enthält, wer thumbshots.de geblockt hat sperrt den Burschen mit aus. Der Stern * greift natürlich auch, sprich wenn der Bot nichts anderes findet fühlt er sich dadurch angesprochen. Auf Wunsch bringe ich ihm noch das Wort KFSW bei, wenn Ihr es für sinnvoll haltet.
IP's zum Sperren gibt es diesmal leider nicht, das System wird so laufen wie Seti@Home

Gruss
Kristian

Verfasst:
von

Verfasst: 29.01.2008, 23:01
von shadaik
Alleridngs finde ich eine Seite, die Suchergebnisse mit Screenshots der Seiten ausgibt nicht schlehct.

Oder übertreibt thumbshot es mit der Spiderei öfters (hab den bisher noch nicht gesichtet)?

Verfasst: 30.01.2008, 00:03
von Kristian
Hallo
shadaik hat geschrieben:Alleridngs finde ich eine Seite, die Suchergebnisse mit Screenshots der Seiten ausgibt nicht schlehct.
Oder übertreibt thumbshot es mit der Spiderei öfters (hab den bisher noch nicht gesichtet)?
Ich hoffe, dass er es nicht übertreibt, das wäre ein Fehler / Bug im Programm.
Die Realität ist eher, dass es schwer ist die Masse der Seiten, die er machen soll zu bewältigen.
Derzeit - über meine Leitung laufen gerade zwei Instanzen des Progs - sind das pro Tag max. 10.000 Seiten.
In der DB haben wir gerade 1,7 Mio Seiten / ThumbShots.
Rechne das mal hoch und vergleiche es mal mit der Zahl im Google-Index.


Gruss
Kristian

Verfasst:
von

Verfasst: 30.01.2008, 12:10
von shadaik
Oh, ren Missverständnis: Ich hatte das mit einer SuMa verwechselt, die links neben dem Suchergebnis einen Sxcreenhsozt der Seite anzeigt.
Die fand ich klasse, hab sie aber bald wieder vergessen ob der schieren Präsenz von Google.

Verfasst: 30.01.2008, 16:29
von submitnine
User-agent: thumbshots-de-bot
Disallow: /

Steht in deren FAQ drin.

Verfasst: 30.01.2008, 19:39
von Kristian
Hallo
submitnine hat geschrieben:User-agent: thumbshots-de-bot
Disallow: /

Steht in deren FAQ drin.
Jo, das stimmt.
in meiner /bot.html steht:

Code: Alles auswählen

User-agent: ThumbShots-Bot
Disallow: /
Diese Kennung findet sich auch im Logfile.
Mir geht es darum, dass jemand der keine ThumbShots seiner Seite sehen will nicht genötigt sein soll jeden einzelnen Service einzutragen.
Von daher fühlt sich mein Bot angesprochen, sobald er das Wort thumbshot findet, Groß - und Kleinschreibung sind dabei egal.
Bei thumbshots.de wird es wohl in Kürze auch so sein, wer noch mitzieht, bzw. wer überhaupt die robots.txt liest ist eine andere Frage.

Gruss
Kristian