Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Rumaenische Scraper auf dem Vormarsch..

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Kristian
PostRank 9
PostRank 9
Beiträge: 1484
Registriert: 20.07.2005, 16:30

Beitrag von Kristian » 18.02.2008, 16:33

Hallo Sean
sean hat geschrieben:bei mir würde schon reichen, nach mehr als 3 Aufrufen (html, php Seiten) die Requestzeit zu verlangsamen. Sagen wir mal Zugriff 1 - 3 Servermaximum, dananach 1 Sekunde wartezeit je Anfrage, danach 2 Sekunden, danach 4 Sekunden usw. Googlebot würd eich über eine Whitelist ausnehmen. Ich hab das mal vor xmonaten in PHP umgesetzt - lol - leider viel zu lahm :-)
Besagte Whitelist fehlt mir gerade, nachdem ich die Erfahrung von RW vergegenwärtigt habe wäre es schön eine vernünftige Liste in die Finger zu bekommen.
Schickst du mir den Part bitte per PN oder Mail?

Die Umsetzung deiner Idee, sprich Wartezeit für X Sekunden habe ich schon angedacht, ich werde es allerdings nur in meiner Spache effizient hinbekommen, die PHP-Übersetzung bleibt dann den Cracks vorbehalten, die sich damit auskennen.

TIA
Kristian

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

RW
PostRank 6
PostRank 6
Beiträge: 436
Registriert: 23.07.2003, 08:54

Beitrag von RW » 18.02.2008, 16:42

HI,

Sean
Wie stellst Du sicher das das der "Googlebot" auch der ist welcher er sein sollte?
Das Problem ist das alles manipulierbar ist ......

Mein Ansatz ist ein bash Befehl z.B.
whois 64.68.86.140 | grep -i "Google Inc." &>/dev/null; echo $?

Praktisch eine Whois zur Laufzeit.
Nachteil dauert einfach zulange.

Ich denke ich werde das mit den Cookie Tracking umsetzen. Dafür gibt es diese ja :lol:
Und eine Mysql Tabelle kann man bei genügend Ram auch im Speicher laden.

Grüße RW

sean
PostRank 10
PostRank 10
Beiträge: 3396
Registriert: 05.01.2004, 20:26
Wohnort: Leipzig/Karlsruhe

Beitrag von sean » 18.02.2008, 17:00

Schickst du mir den Part bitte per PN oder Mail?
sorry Krsitian, die war definitiv nicht vollständig, nur die paar IPs die bei mir aufgeschlagen sind! Da ich das per PHP nichtz länger getestet habe, hab ich auch nicht weiter gesammelt :-(
Wie stellst Du sicher das das der "Googlebot" auch der ist welcher er sein sollte?
das geht per reverse dns glaub ich, hat Google selber mal bekannt gegeben.

Im netzt müssten solche IP listen verfügbar sein:
https://www.iplists.com/google.txt
https://www.webmaster-eye.de/GoogleBot- ... tikel.html

Googlebot reverse dns:
https://googlewebmastercentral.blogspot ... lebot.html

Hier gesnippt von Forenmitglied Michael:
<?

$ip = "66.249.66.1";

$hostname = gethostbyaddr($ip);
$ip2 = gethostbyname($hostname);
if ($ip == $ip2 && ereg(".*googlebot.com", $hostname))
{
echo "Hier handelt es sich um einen Google Bot\r\n";
} else {
echo "Hier handelt es sich nicht um einen Google Bot\r\n";
}

?>

Gruß

sean