Seite 1 von 1

Wo war Google?

Verfasst: 08.08.2004, 16:23
von heiko228
Hi alle zusammen,

wie kann ich den rausfinden, auf welchen Seiten Google sich rumgetrieben hat? Ich meine auf der eigenen Homepage.

Grüsse
Heiko

Verfasst:
von

Verfasst: 08.08.2004, 16:52
von eizo
<?
$trackurl = $_SERVER['PHP_SELF'] ;
if ($_SERVER['QUERY_STRING']!='') {$trackurl="$trackurl?".$_SERVER['QUERY_STRING'];}

$trackUserAgent =strtolower($_SERVER['HTTP_USER_AGENT']);
if (stristr($trackUserAgent ,"archiver")) {$trackrobot="Alexa";}
if (stristr($trackUserAgent ,"exabot")) {$trackrobot="Exalead";}
if (stristr($trackUserAgent ,"fast")) {$trackrobot="Fast";}
if (stristr($trackUserAgent ,"firefly")) {$trackrobot="Fireball";}
if (stristr($trackUserAgent ,"googlebot")) {$trackrobot="Google";}
if (stristr($trackUserAgent ,"grub")) {$trackrobot="Looksmart";}
if (stristr($trackUserAgent ,"mirago")) {$trackrobot="Mirago";}
if (stristr($trackUserAgent ,"msnbot")) {$trackrobot="MSN";}
if (stristr($trackUserAgent ,"nutch")) {$trackrobot="Nutch";}
if (stristr($trackUserAgent ,"slurp")) {$trackrobot="Inktomi";}
if (stristr($trackUserAgent ,"scooter")) {$trackrobot="Altavista";}
if (stristr($trackUserAgent ,"teoma")) {$trackrobot="Ask Jeeves - Teoma";}
if (stristr($trackUserAgent ,"voilabot")) {$trackrobot="Voila";}
if (stristr($trackUserAgent ,"zyborg")) {$trackrobot="Wisenut";}

if ($trackrobot != "")
{
$trackdate = date('Y-m-d H:i:s');
$trackhost = $_SERVER['HTTP_HOST'];
$trackaddr = $_SERVER['REMOTE_ADDR'];
$trackbody = " ".$trackrobot." hat am ".$trackdate."\n folgende URL besucht ".$trackhost.$trackurl."\n\n remote_adress = ".$trackaddr;
mail('google@blabla.de',$trackrobot.' - '.$trackdate,$trackbody);
}
?>

Mail ändern, als blabla.php speichern und einfach über include in die jeweilige Seite einfügen. Ansonsten such mal nach robotstats, das geht auch.

Verfasst: 08.08.2004, 17:29
von Southmedia
Andere Möglichkeit:
Nachträglich einfach die Logfiles analysieren auf den Useragent des Bots.

Verfasst: 08.08.2004, 17:55
von heiko228
Besten Dank.

Weis nur nicht so recht, wo ich das php einpflanzen soll.

Verfasst: 08.08.2004, 18:26
von Wuppi
Hi

@eizo: so wie ich da sehe, ist da kein Mechanismus drin, der dafür sorgt das man nicht zugespammt wird!

Google ist bei mir im Forum teils mit wenigstens 10 IPs anwesend und hält sich nen halben Tag auf ... wieviele Mails sollen mir da erwarten?

Cleverer fänd ich, das er für die Zeit wo ein Bot anwesend ist, ein Track-Log erstellt - sobald der Bot weg ist, wird das Log per Mail verschickt (mit den URLs wo er überall war - doppelte sollten rausgefiltert sein) ... aber so fänd ich das fatal, oder ich hab was übersehen ;) ...

Gruß
Wuppi

Verfasst: 08.08.2004, 20:31
von HW
..hab mir Heute gerade ein HTTP-Module geschrieben das analysiert welche Seite der Besucher, also auch der Crawler angeschaut hat und wie lange.
Funzt prima leider Asp.net

Verfasst: 08.08.2004, 20:59
von eizo
Wuppi hat geschrieben:@eizo: so wie ich da sehe, ist da kein Mechanismus drin, der dafür sorgt das man nicht zugespammt wird!

Google ist bei mir im Forum teils mit wenigstens 10 IPs anwesend und hält sich nen halben Tag auf ... wieviele Mails sollen mir da erwarten?

Cleverer fänd ich, das er für die Zeit wo ein Bot anwesend ist, ein Track-Log erstellt - sobald der Bot weg ist, wird das Log per Mail verschickt (mit den URLs wo er überall war - doppelte sollten rausgefiltert sein) ... aber so fänd ich das fatal, oder ich hab was übersehen ;) ...

Gruß
Wuppi
ja, eben den Punkt das er von der "eigenen Webseite" sprach. Diese ist im Regelfall ja nun nicht so extrem groß das man völlig zugespamt wird. Shoppingportale mit xxk Seiten sind da sicher etwas anderes, ich bezweifle aber das dann die Frage so gekommen wäre ;-)
Wenn Du die Sache mit dem Track-Log erstellt hast schick mir doch bitte eine Kopie, ich hätte das auch gerne ;-)

Verfasst: 08.08.2004, 23:21
von stalker
Version um Botlog zu erstellen:

<?
$trackurl = $_SERVER['PHP_SELF'] ;
if ($_SERVER['QUERY_STRING']!='') {$trackurl="$trackurl?".$_SERVER['QUERY_STRING'];}

$trackUserAgent =strtolower($_SERVER['HTTP_USER_AGENT']);
if (stristr($trackUserAgent ,"archiver")) {$trackrobot="Alexa";}
if (stristr($trackUserAgent ,"exabot")) {$trackrobot="Exalead";}
if (stristr($trackUserAgent ,"fast")) {$trackrobot="Fast";}
if (stristr($trackUserAgent ,"firefly")) {$trackrobot="Fireball";}
if (stristr($trackUserAgent ,"googlebot")) {$trackrobot="Google";}
if (stristr($trackUserAgent ,"grub")) {$trackrobot="Looksmart";}
if (stristr($trackUserAgent ,"mirago")) {$trackrobot="Mirago";}
if (stristr($trackUserAgent ,"msnbot")) {$trackrobot="MSN";}
if (stristr($trackUserAgent ,"nutch")) {$trackrobot="Nutch";}
if (stristr($trackUserAgent ,"slurp")) {$trackrobot="Inktomi";}
if (stristr($trackUserAgent ,"scooter")) {$trackrobot="Altavista";}
if (stristr($trackUserAgent ,"teoma")) {$trackrobot="Ask Jeeves - Teoma";}
if (stristr($trackUserAgent ,"voilabot")) {$trackrobot="Voila";}
if (stristr($trackUserAgent ,"zyborg")) {$trackrobot="Wisenut";}

if ($trackrobot != "")
{
$trackdate = date('Y-m-d H:i:s');
$trackhost = $_SERVER['HTTP_HOST'];
$trackaddr = $_SERVER['REMOTE_ADDR'];
$trackbody = " ".$trackrobot." hat am ".$trackdate."\n folgende URL besucht ".$trackhost.$trackurl."\n\n remote_adress = ".$trackaddr;

$filename = 'c:\robotlog.txt';
$fp = fopen($filename, "a");
$write = fputs($fp, $trackbody);
fclose($fp);
}
?>


Könnte man dann ja zusätzlich einmal am Tag per Cronjob mailen oder so...
Ausserdem sollte noch jeden Tag ein neuer Logfile angefangen werden.
schätze in der Art: $filename = 'c:\robotlog'.$trackdate'.txt';
Alles ohne Garantie, da ich eigentlich kein PHP kann ;).

Verfasst: 09.08.2004, 06:31
von HW
..da meine Sonnendomain ja eine kleine Domain ist, hier mal den Besuch von gurgel diese Nacht:
Falls es stört bitte löschen 8)

Verfasst: 09.08.2004, 09:09
von stalker
das wären dann stolze 80 mails ...
:o

@hw
womit arbeitest du ? visual studio ?

Verfasst: 09.08.2004, 13:34
von mcchaos
Mal ne Frage hierzu: Google gibt sich doch bestimmt nicht immer als Googlebot aus, oder? Ich meine, sonst könnte man ja... ich mag gar nicht daran denken...

Verfasst: 09.08.2004, 14:02
von stalker
in 99,99999% der Fälle gibt er sich mit dem UserAgent Googlebot/2.1 (+https://www.google.com/bot.html) aus
Man sichtet Ihn aber auch dann und wann mal unter anderer Flagge crawlen