Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Rumaenische Scraper auf dem Vormarsch..

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Kristian
PostRank 9
PostRank 9
Beiträge: 1484
Registriert: 20.07.2005, 16:30

Beitrag von Kristian » 18.02.2008, 16:33

Hallo Sean
sean hat geschrieben:bei mir würde schon reichen, nach mehr als 3 Aufrufen (html, php Seiten) die Requestzeit zu verlangsamen. Sagen wir mal Zugriff 1 - 3 Servermaximum, dananach 1 Sekunde wartezeit je Anfrage, danach 2 Sekunden, danach 4 Sekunden usw. Googlebot würd eich über eine Whitelist ausnehmen. Ich hab das mal vor xmonaten in PHP umgesetzt - lol - leider viel zu lahm :-)
Besagte Whitelist fehlt mir gerade, nachdem ich die Erfahrung von RW vergegenwärtigt habe wäre es schön eine vernünftige Liste in die Finger zu bekommen.
Schickst du mir den Part bitte per PN oder Mail?

Die Umsetzung deiner Idee, sprich Wartezeit für X Sekunden habe ich schon angedacht, ich werde es allerdings nur in meiner Spache effizient hinbekommen, die PHP-Übersetzung bleibt dann den Cracks vorbehalten, die sich damit auskennen.

TIA
Kristian

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

RW
PostRank 6
PostRank 6
Beiträge: 436
Registriert: 23.07.2003, 08:54

Beitrag von RW » 18.02.2008, 16:42

HI,

Sean
Wie stellst Du sicher das das der "Googlebot" auch der ist welcher er sein sollte?
Das Problem ist das alles manipulierbar ist ......

Mein Ansatz ist ein bash Befehl z.B.
whois 64.68.86.140 | grep -i "Google Inc." &>/dev/null; echo $?

Praktisch eine Whois zur Laufzeit.
Nachteil dauert einfach zulange.

Ich denke ich werde das mit den Cookie Tracking umsetzen. Dafür gibt es diese ja :lol:
Und eine Mysql Tabelle kann man bei genügend Ram auch im Speicher laden.

Grüße RW

sean
PostRank 10
PostRank 10
Beiträge: 3396
Registriert: 05.01.2004, 20:26
Wohnort: Leipzig/Karlsruhe

Beitrag von sean » 18.02.2008, 17:00

Schickst du mir den Part bitte per PN oder Mail?
sorry Krsitian, die war definitiv nicht vollständig, nur die paar IPs die bei mir aufgeschlagen sind! Da ich das per PHP nichtz länger getestet habe, hab ich auch nicht weiter gesammelt :-(
Wie stellst Du sicher das das der "Googlebot" auch der ist welcher er sein sollte?
das geht per reverse dns glaub ich, hat Google selber mal bekannt gegeben.

Im netzt müssten solche IP listen verfügbar sein:
https://www.iplists.com/google.txt
https://www.webmaster-eye.de/GoogleBot- ... tikel.html

Googlebot reverse dns:
https://googlewebmastercentral.blogspot ... lebot.html

Hier gesnippt von Forenmitglied Michael:
<?

$ip = "66.249.66.1";

$hostname = gethostbyaddr($ip);
$ip2 = gethostbyname($hostname);
if ($ip == $ip2 && ereg(".*googlebot.com", $hostname))
{
echo "Hier handelt es sich um einen Google Bot\r\n";
} else {
echo "Hier handelt es sich nicht um einen Google Bot\r\n";
}

?>

Gruß

sean

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Kristian
PostRank 9
PostRank 9
Beiträge: 1484
Registriert: 20.07.2005, 16:30

Beitrag von Kristian » 18.02.2008, 17:00

Hallo

@RW
> Das Problem ist das alles manipulierbar ist

Nein. Eine IP ist nicht manipulierbar.
(ok es geht aber man bekommt keine Antwort, da die an die "falscheIP geht)

Whois zur Laufzeit? Nein, zum einen verstösst es gegen die Nutzungsbedingungen zum anderen ist es unterirdisch langsam - du sagst es ja selbst - also ab in die runde Ablage.

> Cookie Tracking
Gewöhne dir den Begriff ab, das ist, wie das Wort Hacker, für jeden STA ein rotes Tuch.
Sag doch, ich biete meinen Usern mit Hilfe von Cookies einen zusätzlichen Mehrwert, dass in der Datenschutz-Erklärung deiner Seite(n) und gut ist's.

Gruss
Kristian

sean
PostRank 10
PostRank 10
Beiträge: 3396
Registriert: 05.01.2004, 20:26
Wohnort: Leipzig/Karlsruhe

Beitrag von sean » 18.02.2008, 17:04

ich werde es allerdings nur in meiner Spache effizient hinbekommen
in PHP wird das wohl nie schnell sein wenn massig Besucher auftauchen :-(

Gruß

sean

Kristian
PostRank 9
PostRank 9
Beiträge: 1484
Registriert: 20.07.2005, 16:30

Beitrag von Kristian » 18.02.2008, 17:36

Hallo
sean hat geschrieben:
ich werde es allerdings nur in meiner Spache effizient hinbekommen
in PHP wird das wohl nie schnell sein wenn massig Besucher auftauchen :-(
Das möchte ich bezweifeln. Den einzigen aussergewöhnlichen Teil den ich nutze ist die Speicherung im RAM anstatt auf der Disk.
Diese kurze Anfrage: https://www.google.de/search?q=PHP+IPC zeigt mir, dass das auch in PHP geht. Die restlichen Funktionen / Methoden gibt es mitlerweile sicherlich in PHP,
Nööö, da malst du schwärzer als nötig, das geht auch in PHP unter 1/100 Sekunde.

Bahhh, zur Not schreibe ich es selbst, es ist doch nur ne andere Sprache bzw. ein anderer Dialekt, das sollte einem Programmierer doch nicht wirklich Probleme machen.
(abgesehen vom Zeitaufwand, den einer vom Fach reduzieren könnte)

Gruss
Kristian

RW
PostRank 6
PostRank 6
Beiträge: 436
Registriert: 23.07.2003, 08:54

Beitrag von RW » 18.02.2008, 17:41

Hallo,

@Seo
https://www.iplists.com/google.txt ist bzw. war fehlerhaft

Der Lookup von Forenmitglied Michael ist mir bekannt steht imo auch im php Kochbuch. Soweit ich das mal getest habe sind die PHP Funktionen sehr langsam.
Aber es gibt ja bekannte IP Bereiche von Google. Sollte eine IP nicht in diesen Bereich fallen kann sie getest werden.

@Kristian
Cookie Tracking
Gewöhne dir den Begriff ab, das ist, wie das Wort Hacker, für jeden STA ein rotes Tuch.
Sag doch, ich biete meinen Usern mit Hilfe von Cookies einen zusätzlichen Mehrwert, dass in der Datenschutz-Erklärung deiner Seite(n) und gut ist's.

Genau das wollte ich ausdrücken :lol:
Soweit ich das verstanden habe benutzt Du den Shared Memory Bereich. gab es dort nicht eine Begrenzung der Größe ?


RW

everflux
PostRank 8
PostRank 8
Beiträge: 939
Registriert: 01.05.2006, 17:15

Beitrag von everflux » 18.02.2008, 17:49

httrack kenne ich, ich glaube aber nicht, dass das von den Scraper/harvester/doofi Jungs eingesetzt wird, sondern ich rechne damit, dass es irgendwie 2-3 Produkte gibt, die vielleicht in VB oder so gestrickt sind.
Das bottrap projekt kenne ich, auch wenn mich die Registrierung und Lizenz bisher von einer Nutzung abgehalten haben, und es daher nicht aus dem echten Einsatz kenne.
Bottrap hilft allerdings bei dynamischen IPs nicht, und da möchte ich gerne was machen was auch ohne tut.
Meine Idee war so ein Bild oder Javascript das geladen werden muß, um den Zugriff freizuschalten. Cookies wären dann wohl auch Pflicht.
https://everflux.de/ blogging about life, programming, seo and the net

Kristian
PostRank 9
PostRank 9
Beiträge: 1484
Registriert: 20.07.2005, 16:30

Beitrag von Kristian » 18.02.2008, 17:57

Hallo

> Soweit ich das verstanden habe benutzt Du den Shared Memory Bereich. gab es dort nicht
> eine Begrenzung der Größe ?

Ja, das ist definitiv so.
Sorry ich habe mich zuletzt vor x Jahren intensiv damit beschäftigt. AFAIK ist es so das es max. 128 / 256 Segmente gibt, die jeweils 56 / 64 Kb verkraften. (je nach System)
Das Ganze ist im Kernel einkompiliert, ich hab damals auch mal versucht die Werte zu ändern und einen neuen Kernel zu erschaffen aber hmmm, schweigen wir besser....

Fakt ist der Ram ist begrenzt.
Fakt ist, wenn der genutze RAM ein Segment überschreitet bremst das merklich.

Nichts destotrotz, ich habe es ja für Datenmengen zwichen 50 und 170KB getestet, es ist zumutbar und ok. (zumindest auf nem Root-Server oder V-Server)

Gruss
Kristian

Kristian
PostRank 9
PostRank 9
Beiträge: 1484
Registriert: 20.07.2005, 16:30

Beitrag von Kristian » 18.02.2008, 18:23

Hallo
everflux hat geschrieben:Das bottrap projekt kenne ich, auch wenn mich die Registrierung und Lizenz bisher von einer Nutzung abgehalten haben, und es daher nicht aus dem echten Einsatz kenne.
Bottrap hilft allerdings bei dynamischen IPs nicht, und da möchte ich gerne was machen was auch ohne tut.
Meine Idee war so ein Bild oder Javascript das geladen werden muß, um den Zugriff freizuschalten. Cookies wären dann wohl auch Pflicht.
Echt, hat bottrap eine seltsame Lizenz? Das ist mir neu. Ich habe mich dort bislang nicht angemeldet, da ich Konkurenz für sinnvoll halte und gar nicht "über den Zaun" gucken wollte.

> Meine Idee war so ein Bild oder Javascript das geladen werden muß, um den Zugriff
> freizuschalten. Cookies wären dann wohl auch Pflicht

Das was ich in diesem Thread unter 1 ("NPH-Proxy") klassifiziert habe triffst du damit nicht. Beim Stichwort "Barriere" bekommst du so null Punkte.
Ansonsten ist der Ansatz durchaus ok.

Gruss
Kristian

everflux
PostRank 8
PostRank 8
Beiträge: 939
Registriert: 01.05.2006, 17:15

Beitrag von everflux » 18.02.2008, 18:50

Damit hast du völlig Recht - daher auch die Idee, nicht nur ein Merkmal zu nehmen, sondern - ähnlich wie spamassasin - mehrere.
Dazu würde ich dann z.B. den UserAgent und den HttpHeader nehmen.
https://everflux.de/ blogging about life, programming, seo and the net

RW
PostRank 6
PostRank 6
Beiträge: 436
Registriert: 23.07.2003, 08:54

Beitrag von RW » 12.03.2008, 13:51

HI,

Hab nach langer Zeit wieder mal was gebaut:

https://www.spam-firewall.de

Grüße RW

DerNeueee
PostRank 1
PostRank 1
Beiträge: 25
Registriert: 18.02.2008, 02:05

Beitrag von DerNeueee » 13.03.2008, 16:07

ich bedanke mich so sehr. du hast mir viel arbeit abgenommen. danke danke genau soetwas braucht ich. *verneig* *heiratsantrag auf phpisch mach* :D

Kristian
PostRank 9
PostRank 9
Beiträge: 1484
Registriert: 20.07.2005, 16:30

Beitrag von Kristian » 13.03.2008, 19:29

Hallo
RW hat geschrieben: Hab nach langer Zeit wieder mal was gebaut:
https://www.spam-firewall.de
Erstmal, ich finde es toll!
Ich habe zwar nur kurz drübergeschaut, aber es sieht verdammt gut aus.
Wenn jemand seine Zeit opfert und das Ergebnis seiner Arbeit kostenfrei herausgibt um der Sache zu dienen, er verdient RESPEKT.
Vorallem hast du es ja richtig durchgezogen, Whitelist, einstellbare Zeitsperre usw. usw.
Ich finde es geil, da wird die Perl-Fraktion am Wochenende wohl noch ein bisschen Zeit opfern müssen. ;-)

Anmerkung:
Zeile 152 in my.php Da hast du die Bad_Bots drinn.
In Zeile 156 arbeitest du mit @preg_match, das sind IMHO Perl-Style-Regular-Expressions?
In Zeile 152 hast du aber noch Sonderzeichen, die maskiert werden sollten, zumindest nach meinem Gefühl.
Das gilt für die "-" und "!" in Zeile 152. Die Punkte, ok, eigentlich auch, aber wir wollen ja nicht pästlicher sein als der Papst.
Ich kenne die Schwulitäten in die man kommt, wenn man kein quotemeta() nutzt, da man in der Liste noch regexen will. Hmm, einen perfekten Weg gibt es nie aber ich denke du solltest dort noch mal reinschauen.
Die "/" (Slashes) dürften nicht weh tuen, da du die Regex ja mit "~" begrenzt. (bei Java\/ , schadet aber IMHO auch nicht)

Anbei, ich habe ja gar keine Ahnung von PHP, mag sein dass ich gerade - ab Anmerkung - Müll verzapft habe.

Gruss
Kristian

RW
PostRank 6
PostRank 6
Beiträge: 436
Registriert: 23.07.2003, 08:54

Beitrag von RW » 14.03.2008, 09:57

Hi, Kristian

Eigentlich wollte ich nicht diesen Aufwand betreiben. Mit meiner Bot Trap Anmeldung bin ich jedoch bei den Mod’s durchgefallen (war wahrscheinlich zu oberflächlich :lol: ).
- Aber das gehört nicht hier her. -

Insgesamt nutze ich jetzt die Spam Firewall global auf meinen Servern für alle Vertragsseiten bzw. eigene Projekte. Die Logs sagen das sich der Aufwand gelohnt hat. Dennoch wenn Jemand eine Datenbank (Content) auslesen möchte wird er es schaffen auch mit Spam Firewall 100%, Schutz kann es nicht geben.

Den PCRE Syntax zum regulären Ausdruck schau ich mir noch mal genauer an.
Danke!


Grüße RW

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag