Hallo
Erstmal, wir müssen differenzieren.
1. Es gibt die Familie(n) der "NPH-Proxies"
2. Es gibt Scraper, Zielsetzung: Veröffentlichung fremden Contents
3. DDos, hier geht es einfach darum einen Server so zu überlasten, dass er quasi aus ist
4. Die Sammler von Mailadressen
5. "Pseudosuchmaschinen", ich habe selbst eine, man mag mir die " verzeihen
(es gibt mit Sicherheit auch 6. 7. 8.... aber die sind so selten, man kann sie übersehen)
Es gibt IMHO keine Lösung die das alles in einem Abwasch erledigen könnte,
https://www.bot-trap.de wird mir ev. widersprechen, es ist dort wohl auch die Zielsetzung alles zu handeln.
Zu 1: Hier hilft es die IP's zu kennen und zu sperren. IMHO handelt es sich bei diesen IP's nicht um "persönliche" Daten, die via Datenschutz unantastbar sind.
Zu 2: Ganz schwer, wenn es händisch via Browser erfolgt, FF ist sehr geeignet, keine Chance der Gegenwehr.
Zu3: Darauf zielt die Lösung die ich in diesem Thread angedacht habe, was die Jungs wirklich wollen ist mir relativ schnuppe, für mich ist es DDos.
Zu 4: Die verhalten sich meist wie die Kandidaten unter 3 => gleiches Szenario
Zu 5: Hier gilt es abzuwägen ob man die nun lässt oder nicht, wenn die robots.txt beachtet wird ist es schonmal ein gutes Zeichen, wenn der Content in Suchergebnissen endet und daraus resultierend entweder User kommen oder Backlinks entstehen, hmmm das muss jeder selber wissen, wen er lässt und wen nicht. Entweder es geht per robots.txt oder bei merkbefreiten Kandidaten via .htaccess
So, toller Vortrag bislang....
Cookies waren ein Thema. Ja ich glaube damit könnte man im Moment arbeiten, die meisten Tools / Scripte etc. blockieren Cookies oder wissen gar nicht was das ist.
Cookie-Tracking? Aua, das geht wieder so in Richtung User kennzeichnen und kollidiert mit den Vorstellungen des Gesetzgebers.
Ich denke aber dass es nicht verboten sein kann einen Cookie zu senden und bei Rücksendung auf weitere Aktionen zu verzichten. Das wird solange funktionieren bis die Leute hinter 1-5 das geschnallt haben.
@everflux
> ich versuche derzeit eine Heuristik zu finden, die Bots besser und schneller erkennt
Schwierig, ich habe es für die diversen Arten unter 1 mal versucht, es gibt Hinweise und Anzeichen aber die sind je nach Konfiguration der jeweiligen Programme unterschiedlich, das Ganze war am Ende so wachsartig, dass es für mich keinen Sinn mehr ergab.
Somit gilt für diese Kandidaten wohl das was unter zu 1 steht.
Ein möglicher Ansatz wäre immer zu prüfen, ob auch Bilder geladen werden, wenn nicht ist es ein Bot oder ein Browser der text-only arbeitet (z.B. lynx) es könnte aber auch der Screenreader eines Blinden sein. Wenn man es hart durchziehen würde müsste man die IP mit einer White-List abgleichen und dann entscheiden ob er darf oder nicht. Wirklich treffen könnte man damit 4 und 5 aber es ist auch nur ein Teil des Puzzle.
Soweit meine 50 Cent.
Gruss
Kristian