Seite 1 von 1

überprüfung der url die ein bot erhält/erhalten hat

Verfasst: 24.03.2006, 09:18
von redcan
hallo zuasmmen,

wie oder wo kann ich überprüfen wie ein bot eine seite gespidert hat, mit oder ohne session id.
nachher in den serps ist klar ( :o ) , aber nach direkt dem spidern?

danke vorab!

Verfasst:
von

Verfasst: 24.03.2006, 09:33
von blinks
hi,

alle bots können über den HTTP User-Agent identifiziert werden. unter https://www.robotstxt.org/wc/active.html findest du eine ausführliche liste mit infos über einzelne bots. in deinen webserver-logfiles steht zu jedem zugriff der user-agent und die aufgefufene url. du kannst also in deinen logs ganz genau sehen, welcher bot welche seite gespidert hat.

gruß,
blinks

überprüfung der url die ein bot erhält/erhalten hat

Verfasst: 24.03.2006, 09:42
von redcan
danke für die info blinks, aber wo kann ich sehen ob mit oder ohne sessions id gespidert wurde, sollte das in den logs stehen ?

Verfasst:
von
SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Verfasst: 24.03.2006, 09:52
von blinks
hmmm,

ich sehe gerade in meinen logs, dass es da auch nicht steht :oops: es gibt aber für den apache eine einstellung, damit das auch geloggt wird. anderenfalls kannst du folgenden codeschnippsel benutzen:

Code: Alles auswählen

<?php
   $host=@gethostbyaddr&#40;$_SERVER&#91;REMOTE_ADDR&#93;&#41;;
   @$logfile=fopen&#40;"geloggt/".date&#40;'dmY'&#41;.".log", "a"&#41;;
   @fwrite&#40;$logfile, mktime&#40;&#41;."|".$host."|".$_SERVER&#91;HTTP_REFERER&#93;." -> ".$_SERVER&#91;REQUEST_URI&#93;."\n"&#41;;
   @fclose&#40;$logfile&#41;;
?>
für den googlebot mit SESSID würde ein eintrag dann so ausschauen:

Code: Alles auswählen

1136073334|crawl-66-249-66-108.googlebot.com| -> /index.html?PHPSESSID=182b61393c145f1b0c60eca6b54c2887
ich hoffe, das hilft dir schonmal weiter. achso, das verzeichnis 'geloggt' muss schreibbar sein!

gruß,
blinks

überprüfung der url die ein bot erhält/erhalten hat

Verfasst: 24.03.2006, 10:10
von redcan
hallo blinks, klappt prima, vielen dank für deine hilfe !!!!!

1143191418|crawl-66-249-66-212.googlebot.com| -> /test/test2/datei.html?sid=996sasdaddd4baddadadae3cc9cd

obwohl im shop sessions abgeschaltet erhält google gerade die sid :evil:
(mozilla/5.0 bot)

Verfasst: 24.03.2006, 11:12
von blinks
hi,

freut mich, dass ich dir helfen konnte. wenn der shop auch ohne sessions gespidert werden kann (und davon gehe ich aus, denn für gewöhnlich werden in den sessions lediglich userinfos gespeichert), dann kannst du die zeile in deinem shop, die die session startet, durch die folgende ersetzen:

Code: Alles auswählen

if &#40;!ereg&#40;"googlebot", $host&#41;&#41; session_start&#40;&#41;;
damit wird die session beim googlebot nicht gestartet und folglich keine session-id an die url angehangen. pass damit aber auf und versuche zuerst die logik des shops zu verstehen!! (nicht dass du dir durch meine tipps dein ranking / deinen shop zerschiesst ;) )

gruß,
blinks

überprüfung der url die ein bot erhält/erhalten hat

Verfasst: 24.03.2006, 12:10
von redcan
kann es auch sein, das der geloggte googleeintrag die angefragte url ist, sprich eine die in google bereits mit sid vorhanden war?
habe es mal mit einem simulator versucht, damit bekommt der mozilla/5.0 von google keine sid.