Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Wie bekomme ich die Sessions aus dem Suchindex raus?

Dieses Forum ist für Informationen über Google gedacht (Ausser PageRank!).
woody
PostRank 2
PostRank 2
Beiträge: 59
Registriert: 30.08.2006, 19:19
Wohnort: Wien

Beitrag von woody » 30.08.2006, 19:25

Ella hier...sorry sitz jetzt zu hause und hab natürlich das passwort vergessen und schnell mal nen neuen account gebastelt. ;)

natürlich ist das quatsch was ich da oben geschrieben habe.
der 301er zeigt natürlich auf die selbe url nur ohne sid.
hab vorhin aus der firma getippselt und etwas viel um die ohren gehabt.
man sollte halt nur posten wenn man auch zeit und nen kopf dafür hat.
sorry ;)

aber auch nach monaten haben wir noch immer dutzende, manchmal hunderte dieser verkackten urls im index.
wird wohl noch ne ganze weile dauern bis das bereinigt ist.
in suchanfragen scheinen sie aber nie auf, somit ist es mir mittlerweile ziemlich egal.

greetz woody ( ella )

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Anakin
PostRank 3
PostRank 3
Beiträge: 78
Registriert: 24.06.2006, 07:14
Wohnort: Karlsruhe

Beitrag von Anakin » 30.08.2006, 23:27

weisst du was ich jetzt genau eintragen müsste..??

sollte ich jetzt alle 60 URLs einzeln in die .htaccess reinpacken und weiterleiten auf die eigentliche URL?

und wenn ja wie könnte die RewriteRule aussehen? nennt man das überhaupt so?

grüsse

Kralle
PostRank 10
PostRank 10
Beiträge: 2925
Registriert: 08.04.2005, 00:47
Wohnort: Deggingen

Beitrag von Kralle » 30.08.2006, 23:41

@Anakin:

Ich bin dein Vater :lol: :lol: :lol:

Sorry, das mußte kurz sein.

Pack die 60 URLs mit der Session ID in die robots.txt, das sollte genügen. Du brauchst nicht via 301 weiterleiten, da die Seiten ja weiterhin existieren!

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Anakin
PostRank 3
PostRank 3
Beiträge: 78
Registriert: 24.06.2006, 07:14
Wohnort: Karlsruhe

Beitrag von Anakin » 31.08.2006, 08:31

okay Palpatine ;-) und wenn ich das mache passiert was? dann werden diese 60 seiten nicht mehr gefunden oder erscheinen sie nur noch in der html form ohne die sessions?

Kralle
PostRank 10
PostRank 10
Beiträge: 2925
Registriert: 08.04.2005, 00:47
Wohnort: Deggingen

Beitrag von Kralle » 31.08.2006, 08:46

Jo, wenn alles richtig läuft, sollten die Seiten mit den SIDs aus dem Index fliegen, die ohne aber nicht.

Anakin
PostRank 3
PostRank 3
Beiträge: 78
Registriert: 24.06.2006, 07:14
Wohnort: Karlsruhe

Beitrag von Anakin » 31.08.2006, 18:33

sprich ich trage zeile für zeile die urls rein und speichere meine robots.txt und lade sie hoch...?

Code: Alles auswählen

hxxp://www.domain.de/Kabel_Receiver-c-82.html?osCsid=a35845c21bXXXXXXXXXXXX
hxxp://www.domain.de/Sat_Receiver/BAFF-c-81_89.html?osCsid=a0a05471beb2a22a159501404ee1bc0e
wird denn davon ein abgleich gemacht? nicht das es nacher als DC bestraft wird?

Kralle
PostRank 10
PostRank 10
Beiträge: 2925
Registriert: 08.04.2005, 00:47
Wohnort: Deggingen

Beitrag von Kralle » 31.08.2006, 20:26

Du mußt sie aber auch als "Disallow" kennzeichnen! Net daß da was verwechselst :wink:

Du sperrst die Seiten ja eben gerade deshalb, damit es kein DC ist!

Anakin
PostRank 3
PostRank 3
Beiträge: 78
Registriert: 24.06.2006, 07:14
Wohnort: Karlsruhe

Beitrag von Anakin » 01.09.2006, 14:02

Okay Mr. KnightRider.. :D ich werds ausprobieren, mal schauen was draus wird, aber rechtherzlichen dank im Voraus.

Kralle
PostRank 10
PostRank 10
Beiträge: 2925
Registriert: 08.04.2005, 00:47
Wohnort: Deggingen

Beitrag von Kralle » 01.09.2006, 14:29

Schon gut, Möge die Macht mit dir sein :D

Sumatis
PostRank 9
PostRank 9
Beiträge: 1026
Registriert: 12.01.2006, 12:24

Beitrag von Sumatis » 01.09.2006, 15:15

Kralle hat geschrieben:@Anakin:

Ich bin dein Vater :lol: :lol: :lol:

Sorry, das mußte kurz sein.

Pack die 60 URLs mit der Session ID in die robots.txt, das sollte genügen. Du brauchst nicht via 301 weiterleiten, da die Seiten ja weiterhin existieren!
:lol: Die schwarze Kleidung passt immerhin schon mal. :lol:
Hat aber doch Anakin selbst (=Darth Vader) zu Luke gesagt...

Anakin
PostRank 3
PostRank 3
Beiträge: 78
Registriert: 24.06.2006, 07:14
Wohnort: Karlsruhe

Beitrag von Anakin » 01.09.2006, 22:16

nichts für ungut jungs, die runde hier ist wirklich nett :D

aber mein problem besteht weiterhin.. heute mal wieder kontrolliert.. google hat noch mehr seiten aufgenommen, und immer noch mit der session übergabe.. mittlerweile sind wir bei 170seiten angelangt..

@nullpointer..
wie du schon gesagt hast im configmenü diesen parameter Prevent Spider Sessions -
Prevent known spiders from starting a session = true gesetzt, doch tante-Giee spidert als weiter, auch in die spiders.txt einen googl* und googl*bot reingeschrieben..

jetzt bin ich aber wirklich :confused:

jemand noch eine andere idee?

Kralle
PostRank 10
PostRank 10
Beiträge: 2925
Registriert: 08.04.2005, 00:47
Wohnort: Deggingen

Beitrag von Kralle » 01.09.2006, 22:40

Du meinst sicher robots.txt? Oder hast du die wirklich spiders.txt genannt?

Gut möglich, daß Google die Seiten schon gespidert hat, bevor du die Konfiguration geändert hast und erst jetzt in den Index aufgenommen hat. Bleibt dir wohl nicht viel mehr, als die restlichen URLs auch noch reinzuschreiben und ein paar Tage bis Wochen zu warten, dauert manchmal.

Du kannst nach Anlegen der robots.txt auch die URL Console (services.google.com:8882/urlconsole/controller/) verwenden, aber auf eigene Gefahr! Die Seiten sind dann zwar ziemlich schnell ausm Index, aber wenn du nen Fehler in der robots.txt hast, sind die Anderen auch für mindestens 6 Monate weg!

rkecom
PostRank 2
PostRank 2
Beiträge: 37
Registriert: 15.08.2006, 09:36

Beitrag von rkecom » 02.09.2006, 08:15

Du meinst sicher robots.txt? Oder hast du die wirklich spiders.txt genannt?
nein, die spiders.txt ist was anderes ... durch die einträge hier, erkennt der shop die bots und vergibt ihnen keine session-id.

wie kralle schon sagte, sind bestimmt seiten die google vor deiner änderung gespidert hatte und nun im index erscheinen.

hast du kontrolliert, dass nun in der google-sitemap auch wirklich die einträge ohne sids erzeugt werden?

hast du den google-bot mal beim spidern z.b. in der who´s online oder in deinen logs beobachtet ... bekommt er noch ´ne sid angehängt nach deinen änderungen?

hier sind mal meine einträge aus der spiders.txt (nicht ganz aktuell, aber ausreichend). einfach kopieren und in deine spiders.txt einfügen, mit diesen einträgen bekommen google&co. auf jeden fall keine sids:

Code: Alles auswählen

abot
ebot
nbot
obot
rbot
sbot
crawl
slurp
spider
accoona
appie
architext
aspseek
asterias
atomz
augurfind
bannana_bot
booch
diamondbot
docomo
gazz
goforit
google
googlebot
grub
gulliver
holmes
homer
ia_archiver
ichiro
iconsurf
iltrovatore
indexer
infoseek
ivia
java/
jetbot
kit_fireball
knowledge
lachesis
larbin
linkwalker
lwp
mantraagent
mediapartners
mercator
mj12
moget/
msn
msnbot
muscatferret
myweb
nameprotect
ncsa beta
netmechanic
netresearchserver
ng/
npbot
nutch
osis-project
pear.
polybot
pompos
poppelsdorf
rambler
scooter
scrubby
searchbot
seeker
sidewinder
smartwit
sohu
spyder
steeler/
szukacz
t-h-u-n-d-e-r-s-t-o-n-e
/teoma
tutorgig
ultraseek
vagabondo
volcano
voyager/
w3c_validator
websitepulse
wget
worldlight
worm
zao/
xenu
zippp
zyborg
! spiders.txt Contribution version 2005-03-12
wenn es dir nicht zu viel arbeit ist, dann kannst du ja die restlichen gespiderten seiten mit sid auch noch in die robots.txt eintragen, so wie es kralle vorgeschlagen hat, und dann über die konsole löschen lassen ... aber VORSICHT!

Anakin
PostRank 3
PostRank 3
Beiträge: 78
Registriert: 24.06.2006, 07:14
Wohnort: Karlsruhe

Beitrag von Anakin » 02.09.2006, 14:22

also ich hab mal eine zeile rausgeholt aus den logs welche so aussieht:

Code: Alles auswählen

66.249.66.234 - - [01/Sep/2006:02:27:52 +0200] "GET /Handy_Galerie/Nokia/Nokia_6233_silver-pi-175.html HTTP/1.1" 200 1671 www.domain.de "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "-"
hinten dran ist ja jetzt keine session vorhanden, die wird ja jetzt sauber gespidert oder?

Ihr habt mir ja ne URL gegeben wenn ich die jetzt wirklich aus dem index entfernen lasse, kann es wirklich bis zu nem halben jahr dauern? Ich meine ich stehe ja jetzt erst am Anfang, ich überlege ob ich es erstmal komplett optimiere und erst dann einen neuanfang starte, nur habe ich jetzt bedenken wenn ich diesen Schritt mache ob ich jemals in kurzer Zeit wieder regulär indexiert werde. Was würdet ihr mir empfehlen? Ich hab halt keine Lust in ein paar monaten wegen DC gestraft zu werden, lieber gleich sauber oder gar nicht...

ausserdem bin ich mir am überlegen ob ich ein contrib installieren soll, welche das hier macht:

Code: Alles auswählen

Spider Session Remover v1.0 (Jan 15th 2005)
==================================
This is the official release of the Spider Session Remover.
This contribution uses Apache mod_rewite to look for specific spiders, and remove the
session (osCsid) from the URL, and return a '301' back to the spider.
Basically, if the spider tries to do this:
GET /www.example.com/product_info.php?products_id=24&osCsid=ac8d8926059625ecb8dd9115f91d5f8a
the Apache mod_rewrite will rewrite the url to be:
GET /www.example.com/product_info.php?products_id=24
and also return a "301" (Moved Permanently) to the spider.

The problem
=========

You may use one of the following:

* 2-2MS2 "Prevent Spider Sessions" admin feature is set to true.
* SID Killer contribution (http://www.oscommerce.com/community/contributions,952)
* Spider Killer for MS1 contribution (http://www.oscommerce.com/community/contributions,1089)

All of these features are very good, and aim to prevent spiders from adding an session
ID (osCsid) to the url.

However, what if a spider started to crawl your website BEFORE you enabled one of the
above features ? What can happen, is that the (previously) harvested URLS with SIDs in
them will show as results in search engines. Afterwards, often many months later, you
will still see the spider trying to access the the URLs it harvested earlier with the
session ID in it.

In summary, URL's with sessions ID's were harvested PRIOR to any session disabling, and
therefore these URL's are now indexed in search engines, and the spiders continue to
re-visit your website using the URL's with the 'osCsid' in them.

The Solution
=========

So, how do we remove these session ID's for the spiders that continue to use the previously
harvested URL ? By the use of Apache mod_rewrite, look for the spider agent name, and if
the condition is true, re-write the URL without the 'osCsid' in it, and ALSO return a "301"
back to the spider.
sollte ich das einbauen? oder reicht die Funktion im Controlcenter vom osC vollkommen aus (prevent spider sessions)?

Ausserdem würde ich am liebsten die sessions komplett aus der url entfernen, auch für besucher und das am besten intern irgendwo in der .htaccess machen lassen, habt ihr in der Hinsicht schon mal was gehört?

rkecom
PostRank 2
PostRank 2
Beiträge: 37
Registriert: 15.08.2006, 09:36

Beitrag von rkecom » 02.09.2006, 15:31

hinten dran ist ja jetzt keine session vorhanden, die wird ja jetzt sauber gespidert oder?
ja. sieht gut aus.

das mit der urlconsole ist nicht nötig ... lass es lieber, bevor was schief geht und du die komplette domain aus dem index löschst.

bau dir lieber zusätzlich die contrib ein, die du erwähnt hast ... kenne sie zwar nicht, aber von der beschreibung her, macht sie genau das was ella bzw. woody beschrieben hat.

also auf sessions komplett zu verzichten, das geht nicht, dürfte wohl klar sein!
die sid verschwindet ja beim user nach dem 1. oder 2. klick und es wird ein cookie gesetzt (sofern der user cookies akzeptiert). du könntest zwar force cookie use auf true stellen, jedoch vergraulst du dir dann die 1 bis 3 leutchen, die keine cookies akzeptieren und wenn ich mich recht erinnere gibt es damit auch probleme bei aol-nutzern.
was stört dich an der sid bei besuchern ... hauptsache die bots spidern ohne!

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag