Seite 1 von 1

Arbeitsamt Spider ausperren

Verfasst: 18.11.2005, 13:42
von King Creole
Hallo,

wir betreuen ein Portal wo kostenfrei Ausbildungsstellen vermittelt werden.

Nun haben wir gehört, dass es vom Arbeitsamt einen Spider geben soll.

Wenn dem so ist, würden wir diesen gern aussperren.

Awstats zeigt unter Robots/Spiders folgende an:
Google AdSense
MSNBot
Googlebot
Unknown robot (identified by 'crawl')
Inktomi Slurp
LinkWalker
Unknown robot (identified by hit on 'robots.txt')
Unknown robot (identified by 'robot')
GigaBot
WISENutbot
psbot
Unknown robot (identified by 'spider')
AskJeeves
SurveyBot
Walhello appie
Alexa (IA Archiver)
StackRambler
Turn It In
larbin
MSIECrawler
BSpider
Voila
BaiDuSpider
Netcraft

Ich kenne mich leider nicht genug mit der Materie aus, um sagen zu können, ob der dabei ist.

Unter den Top zugriffen taucht immer wieder
relay12.arbeitsamt.de oder
relay13.arbeitsamt.de auf.

Was kann ich da machen?

Vielen Dank schonmal
KC

Verfasst:
von

Arbeitsamt Spieder ausperren

Verfasst: 21.11.2005, 19:01
von bull
Der Roboter heißt

JobSpider_BA/1.1

und kommt von 213.61.218.*
Habe ihn allerdings neulich auch von einer T-Online-Dialin-Adresse gesehen, mit Zugriff auf robots.txt abwechselnd mit HTTP/1.1 und HTTP/1.0, vielleicht ein Fake. Es empfiehlt sich, den Bot vermittels robots.txt auszusperren. Wenn er sich nicht daran hält, mit mod_rewrite aussperren.

Gruß
bull

Verfasst: 23.11.2005, 09:04
von King Creole
Hallo,

danke für die Info. JobSpider_BA/1.1 ist tatsächlich öfters bei uns untewegs, allerdings nur HTTP/1.1.

Sperre ich den per robots.txt so aus?

User-agent: JobSpider_BA
Disallow: /



Viele Grüße
KC

Arbeitsamt Spieder ausperren

Verfasst: 23.11.2005, 09:10
von bull
User-agent: JobSpider_BA
Disallow: /
Sehr wahrscheinlich ja - der Roboter gibt ja im User-agent leider keinen Link auf eine Info-Seite an, wie z.B. der Googlebot

Sicherheitshalber kann man mit mod_rewrite sicherstellen, daß er sich auch an die robots.txt hält:

RewriteCond %{HTTP_USER_AGENT} ^JobSpider
RewriteRule !robots\.txt - [F]

Gruß
bull

Verfasst: 23.11.2005, 09:22
von King Creole
Danke,

hab das so eingetragen. :)

Gruß
KC

Arbeitsamt Spider ausperren

Verfasst: 08.12.2005, 10:58
von camworks
habt ihr euch vielleicht mal überlegt, daß diese "relay12.arbeitsamt.de oder
relay13.arbeitsamt.de" vielleicht arbeitssuchende menschen sind, die von den im wartebereich aufgestellten computern im arbeitsamt aus im netz surfen und jobs suchen?

Arbeitsamt Spider ausperren

Verfasst: 09.12.2005, 07:28
von CarstenH
Hallo,

@camworks: genauso sieht's aus, ich kann Deine Aussage nur bestätigen. Wir haben öfter "relay12.arbeitsamt.de" bzw. "relay13.arbeitsamt.de" als Gäste in unserem Forum und über diese Proxies laufen auch Registrierungen und Anfragen an die Administration. Ergo: dies sind keine Bots und ich würde diese auch nicht ausschließen wollen.

Grüße
Carsten

Arbeitsamt Spider ausperren

Verfasst: 09.12.2005, 07:31
von bull
Es ist an keiner Stelle die Rede davon, relayXY.arbeitsamt.de auszusperren.

Arbeitsamt Spider ausperren

Verfasst: 09.12.2005, 07:39
von CarstenH
@bull: ok, ist einfach noch zu früh am Morgen... :roll:

Formuliere ich das mal anders: Ich würde in Anlehnung an camworks' Gedanken den User-agent: JobSpider_BA ebenfalls nicht aussperren wollen.

Grüße
Carsten

Verfasst: 10.12.2005, 19:14
von edison73
Leider halten sich viele Spider nicht an die robots.txt, daher schließen wir lästige Spider grundsätzlich mit einer .htaccess-Datei aus (sofern die IP bekannt ist).
Da kannst Du dann wenigstens sicher sein, daß der wirklich nicht mehr zugreift.