Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Arbeitsamt Spider ausperren

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
King Creole
PostRank 2
PostRank 2
Beiträge: 40
Registriert: 02.09.2005, 09:35

Beitrag von King Creole » 18.11.2005, 13:42

Hallo,

wir betreuen ein Portal wo kostenfrei Ausbildungsstellen vermittelt werden.

Nun haben wir gehört, dass es vom Arbeitsamt einen Spider geben soll.

Wenn dem so ist, würden wir diesen gern aussperren.

Awstats zeigt unter Robots/Spiders folgende an:
Google AdSense
MSNBot
Googlebot
Unknown robot (identified by 'crawl')
Inktomi Slurp
LinkWalker
Unknown robot (identified by hit on 'robots.txt')
Unknown robot (identified by 'robot')
GigaBot
WISENutbot
psbot
Unknown robot (identified by 'spider')
AskJeeves
SurveyBot
Walhello appie
Alexa (IA Archiver)
StackRambler
Turn It In
larbin
MSIECrawler
BSpider
Voila
BaiDuSpider
Netcraft

Ich kenne mich leider nicht genug mit der Materie aus, um sagen zu können, ob der dabei ist.

Unter den Top zugriffen taucht immer wieder
relay12.arbeitsamt.de oder
relay13.arbeitsamt.de auf.

Was kann ich da machen?

Vielen Dank schonmal
KC

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 20:57
Wohnort: Vèneto

Beitrag von bull » 21.11.2005, 19:01

Der Roboter heißt

JobSpider_BA/1.1

und kommt von 213.61.218.*
Habe ihn allerdings neulich auch von einer T-Online-Dialin-Adresse gesehen, mit Zugriff auf robots.txt abwechselnd mit HTTP/1.1 und HTTP/1.0, vielleicht ein Fake. Es empfiehlt sich, den Bot vermittels robots.txt auszusperren. Wenn er sich nicht daran hält, mit mod_rewrite aussperren.

Gruß
bull

King Creole
PostRank 2
PostRank 2
Beiträge: 40
Registriert: 02.09.2005, 09:35

Beitrag von King Creole » 23.11.2005, 09:04

Hallo,

danke für die Info. JobSpider_BA/1.1 ist tatsächlich öfters bei uns untewegs, allerdings nur HTTP/1.1.

Sperre ich den per robots.txt so aus?

User-agent: JobSpider_BA
Disallow: /



Viele Grüße
KC

bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 20:57
Wohnort: Vèneto

Beitrag von bull » 23.11.2005, 09:10

User-agent: JobSpider_BA
Disallow: /
Sehr wahrscheinlich ja - der Roboter gibt ja im User-agent leider keinen Link auf eine Info-Seite an, wie z.B. der Googlebot

Sicherheitshalber kann man mit mod_rewrite sicherstellen, daß er sich auch an die robots.txt hält:

RewriteCond %{HTTP_USER_AGENT} ^JobSpider
RewriteRule !robots\.txt - [F]

Gruß
bull

King Creole
PostRank 2
PostRank 2
Beiträge: 40
Registriert: 02.09.2005, 09:35

Beitrag von King Creole » 23.11.2005, 09:22

Danke,

hab das so eingetragen. :)

Gruß
KC

camworks
PostRank 5
PostRank 5
Beiträge: 234
Registriert: 04.08.2004, 13:38

Beitrag von camworks » 08.12.2005, 10:58

habt ihr euch vielleicht mal überlegt, daß diese "relay12.arbeitsamt.de oder
relay13.arbeitsamt.de" vielleicht arbeitssuchende menschen sind, die von den im wartebereich aufgestellten computern im arbeitsamt aus im netz surfen und jobs suchen?

CarstenH
PostRank 1
PostRank 1
Beiträge: 7
Registriert: 02.12.2005, 16:30

Beitrag von CarstenH » 09.12.2005, 07:28

Hallo,

@camworks: genauso sieht's aus, ich kann Deine Aussage nur bestätigen. Wir haben öfter "relay12.arbeitsamt.de" bzw. "relay13.arbeitsamt.de" als Gäste in unserem Forum und über diese Proxies laufen auch Registrierungen und Anfragen an die Administration. Ergo: dies sind keine Bots und ich würde diese auch nicht ausschließen wollen.

Grüße
Carsten

bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 20:57
Wohnort: Vèneto

Beitrag von bull » 09.12.2005, 07:31

Es ist an keiner Stelle die Rede davon, relayXY.arbeitsamt.de auszusperren.

CarstenH
PostRank 1
PostRank 1
Beiträge: 7
Registriert: 02.12.2005, 16:30

Beitrag von CarstenH » 09.12.2005, 07:39

@bull: ok, ist einfach noch zu früh am Morgen... :roll:

Formuliere ich das mal anders: Ich würde in Anlehnung an camworks' Gedanken den User-agent: JobSpider_BA ebenfalls nicht aussperren wollen.

Grüße
Carsten

edison73
PostRank 1
PostRank 1
Beiträge: 29
Registriert: 02.12.2005, 01:01

Beitrag von edison73 » 10.12.2005, 19:14

Leider halten sich viele Spider nicht an die robots.txt, daher schließen wir lästige Spider grundsätzlich mit einer .htaccess-Datei aus (sofern die IP bekannt ist).
Da kannst Du dann wenigstens sicher sein, daß der wirklich nicht mehr zugreift.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag