also ich hab mal eine zeile rausgeholt aus den logs welche so aussieht:
Code: Alles auswählen
66.249.66.234 - - [01/Sep/2006:02:27:52 +0200] "GET /Handy_Galerie/Nokia/Nokia_6233_silver-pi-175.html HTTP/1.1" 200 1671 www.domain.de "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "-"
hinten dran ist ja jetzt keine session vorhanden, die wird ja jetzt sauber gespidert oder?
Ihr habt mir ja ne URL gegeben wenn ich die jetzt wirklich aus dem index entfernen lasse, kann es wirklich bis zu nem halben jahr dauern? Ich meine ich stehe ja jetzt erst am Anfang, ich überlege ob ich es erstmal komplett optimiere und erst dann einen neuanfang starte, nur habe ich jetzt bedenken wenn ich diesen Schritt mache ob ich jemals in kurzer Zeit wieder regulär indexiert werde. Was würdet ihr mir empfehlen? Ich hab halt keine Lust in ein paar monaten wegen DC gestraft zu werden, lieber gleich sauber oder gar nicht...
ausserdem bin ich mir am überlegen ob ich ein contrib installieren soll, welche das hier macht:
Code: Alles auswählen
Spider Session Remover v1.0 (Jan 15th 2005)
==================================
This is the official release of the Spider Session Remover.
This contribution uses Apache mod_rewite to look for specific spiders, and remove the
session (osCsid) from the URL, and return a '301' back to the spider.
Basically, if the spider tries to do this:
GET /www.example.com/product_info.php?products_id=24&osCsid=ac8d8926059625ecb8dd9115f91d5f8a
the Apache mod_rewrite will rewrite the url to be:
GET /www.example.com/product_info.php?products_id=24
and also return a "301" (Moved Permanently) to the spider.
The problem
=========
You may use one of the following:
* 2-2MS2 "Prevent Spider Sessions" admin feature is set to true.
* SID Killer contribution (http://www.oscommerce.com/community/contributions,952)
* Spider Killer for MS1 contribution (http://www.oscommerce.com/community/contributions,1089)
All of these features are very good, and aim to prevent spiders from adding an session
ID (osCsid) to the url.
However, what if a spider started to crawl your website BEFORE you enabled one of the
above features ? What can happen, is that the (previously) harvested URLS with SIDs in
them will show as results in search engines. Afterwards, often many months later, you
will still see the spider trying to access the the URLs it harvested earlier with the
session ID in it.
In summary, URL's with sessions ID's were harvested PRIOR to any session disabling, and
therefore these URL's are now indexed in search engines, and the spiders continue to
re-visit your website using the URL's with the 'osCsid' in them.
The Solution
=========
So, how do we remove these session ID's for the spiders that continue to use the previously
harvested URL ? By the use of Apache mod_rewrite, look for the spider agent name, and if
the condition is true, re-write the URL without the 'osCsid' in it, and ALSO return a "301"
back to the spider.
sollte ich das einbauen? oder reicht die Funktion im Controlcenter vom osC vollkommen aus (prevent spider sessions)?
Ausserdem würde ich am liebsten die sessions komplett aus der url entfernen, auch für besucher und das am besten intern irgendwo in der .htaccess machen lassen, habt ihr in der Hinsicht schon mal was gehört?