Seite 1 von 1
überprüfung der url die ein bot erhält/erhalten hat
Verfasst: 24.03.2006, 09:18
von redcan
hallo zuasmmen,
wie oder wo kann ich überprüfen wie ein bot eine seite gespidert hat, mit oder ohne session id.
nachher in den serps ist klar (

) , aber nach direkt dem spidern?
danke vorab!
Verfasst: 24.03.2006, 09:33
von blinks
hi,
alle bots können über den HTTP User-Agent identifiziert werden. unter
https://www.robotstxt.org/wc/active.html findest du eine ausführliche liste mit infos über einzelne bots. in deinen webserver-logfiles steht zu jedem zugriff der user-agent und die aufgefufene url. du kannst also in deinen logs ganz genau sehen, welcher bot welche seite gespidert hat.
gruß,
blinks
überprüfung der url die ein bot erhält/erhalten hat
Verfasst: 24.03.2006, 09:42
von redcan
danke für die info blinks, aber wo kann ich sehen ob mit oder ohne sessions id gespidert wurde, sollte das in den logs stehen ?
Verfasst: 24.03.2006, 09:52
von blinks
hmmm,
ich sehe gerade in meinen logs, dass es da auch nicht steht

es gibt aber für den apache eine einstellung, damit das auch geloggt wird. anderenfalls kannst du folgenden codeschnippsel benutzen:
Code: Alles auswählen
<?php
$host=@gethostbyaddr($_SERVER[REMOTE_ADDR]);
@$logfile=fopen("geloggt/".date('dmY').".log", "a");
@fwrite($logfile, mktime()."|".$host."|".$_SERVER[HTTP_REFERER]." -> ".$_SERVER[REQUEST_URI]."\n");
@fclose($logfile);
?>
für den googlebot mit SESSID würde ein eintrag dann so ausschauen:
Code: Alles auswählen
1136073334|crawl-66-249-66-108.googlebot.com| -> /index.html?PHPSESSID=182b61393c145f1b0c60eca6b54c2887
ich hoffe, das hilft dir schonmal weiter. achso, das verzeichnis 'geloggt' muss schreibbar sein!
gruß,
blinks
überprüfung der url die ein bot erhält/erhalten hat
Verfasst: 24.03.2006, 10:10
von redcan
hallo blinks, klappt prima, vielen dank für deine hilfe !!!!!
1143191418|crawl-66-249-66-212.googlebot.com| -> /test/test2/datei.html?sid=996sasdaddd4baddadadae3cc9cd
obwohl im shop sessions abgeschaltet erhält google gerade die sid
(mozilla/5.0 bot)
Verfasst: 24.03.2006, 11:12
von blinks
hi,
freut mich, dass ich dir helfen konnte. wenn der shop auch ohne sessions gespidert werden kann (und davon gehe ich aus, denn für gewöhnlich werden in den sessions lediglich userinfos gespeichert), dann kannst du die zeile in deinem shop, die die session startet, durch die folgende ersetzen:
Code: Alles auswählen
if (!ereg("googlebot", $host)) session_start();
damit wird die session beim googlebot nicht gestartet und folglich keine session-id an die url angehangen. pass damit aber auf und versuche zuerst die logik des shops zu verstehen!! (nicht dass du dir durch meine tipps dein ranking / deinen shop zerschiesst

)
gruß,
blinks
überprüfung der url die ein bot erhält/erhalten hat
Verfasst: 24.03.2006, 12:10
von redcan
kann es auch sein, das der geloggte googleeintrag die angefragte url ist, sprich eine die in google bereits mit sid vorhanden war?
habe es mal mit einem simulator versucht, damit bekommt der mozilla/5.0 von google keine sid.