Seite 1 von 3

Wie bekomme ich die Sessions aus dem Suchindex raus?

Verfasst: 30.08.2006, 07:21
von Anakin
Also nachdem ich google sitemap für ein osC installiert habe funzt es teilweise. Hier mal einige Fragen:

Wie bekomme ich nach dem BigG meine seiten indexiert hat aber bei den ergebnissen immer die Session mitangezeigt wird. Mal so und so..

Code: Alles auswählen

hxxp://www.domain.de/Kabel_Receiver-c-82.html?osCsid=a35845c21bXXXXXXXXXXXX

hxxp://www.domain.de/Sat_Receiver/BAFF-c-81_89.html?osCsid=a0a05471beb2a22a159501404ee1bc0e
Ich hab extra ne php klasse schreiben lassen der mir die dynamischen links in statische umwandelt, ich dachte bei der indexierung fliegen die sessions raus? Kann man dagegen was machen? vielleicht .htaccess gesteuert?

Zudem wird bei BigG die Sitemaps irgendwie fehlerhaft dargestellt, irgendwo ist der wurm drin, denn in der WebCrawl Übersicht steht bei den Links hier:

Code: Alles auswählen

  HTTP-Fehler (1)    |    Nicht aufgerufene URLs (0)    |    Nicht erreichbare URLs (0)    |     Nicht gefunden (28)     |    URLs durch robots.txt eingeschränkt (0)    |    Zeitüberschreitung beim Aufrufen von URLs (0)  
doch wenn ich bsp. auf Nicht gefunden klicke und egal welches Startdatum und Enddatum auswähle es wird mir nicht gezeigt welche nicht gefunden worden sind? Hat da jemand vielleicht ein tip? Habe mir die Webseite auch verifizieren lassen, hat ja auch geklappt.

:confused:

grüsse

Verfasst:
von

Verfasst: 30.08.2006, 07:49
von Nullpointer
also am einfachsten sollte es sein, die session id für anonyme besucher zu deaktivieren.
deine indizierten session seiten kannst wohl entfernen, indem du bei einem aufruf der sessionseite einen 301er zurück gibst (natürlich für den bot. sonst hast du wenige kunden ;-)

Verfasst: 30.08.2006, 09:35
von Anakin
kannst du mir das mal genauer erklären wie das gemeint ist? und vor allem wie ich das bewerkstellige.. und woher weiss ich welcher bot darauf zugreift, und woran erkenne ich das gbot darauf zugegriffen hat? und wie kann ich die sessionseiten für anonyme user deaktivieren per .htaccess bzw. robots.txt, oder direkt im script selbst..? wenn es im script ist dann werde ich das mal im osc forum nachhaken...

danke schon mal im voraus für die antworten..

Verfasst:
von
SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Verfasst: 30.08.2006, 09:39
von rkecom
hast du vorher im adminbereich des shop unter konfiguration -> sessions den punkt roboter sessions verbieten auf ja gesetzt? - dann können bots keine sitzung starten und indexieren ohne session-id. in der spiders.txt im includes-verzeichnis kannst du die bots eintragen, die keine session erhalten sollen, wenn o.g. menüpunkt aktiviert ist.

Verfasst: 30.08.2006, 10:23
von Anakin
also im besagten menü habe ich diese einträge:

Code: Alles auswählen

Session Directory  	/tmp  	 
Force Cookie Use 	False
Check SSL Session ID 	False
Check User Agent 	False
Check IP Address 	False
Prevent Spider Sessions 	False
Recreate Session 	False
ist damit die Prevent Spider Session gemeint? die aktiviere ich => true
hab jetzt grad geschaut da gibt es eine spider.txt welche trage ich denn für google speziell ein? die haben doch nicht nur einen bot oder? da gibt es sicherlich einige davon... wo finde ich die?

danke mal im voraus.

Verfasst: 30.08.2006, 10:35
von rkecom
ja, prevent spider sessions -> true.

in der spiders.txt ist glaube ich der google-bot schon standardmäßig drin ... hier findest du eine aktuelle spiders.txt mit mehreren bots:

https://www.oscommerce.com/community/co ... piders.txt

der google-bot wird z.b. mit folgendem eintrag/einträgen gesperrt, musst nicht alle bots(ips) eintragen:
google
googlebot

Verfasst: 30.08.2006, 11:17
von Anakin
mal ganz doof gefragt, wenn ich da jetzt den google eintrag in die spiders.txt reinmache heisst dann das google die seiten nicht mehr indexiert? oder ist dieser dafür da um die bots speziell ohne sessions ids zu bedienen?

weil wenn ich dadurch google ausschliesse dann kommen ja gar keine besucher mehr, und das will ich ja auch nun wieder nicht.. es ging mir ja nur das bei den ergebnissen keine sessions angezeigt werden sollen..

Verfasst: 30.08.2006, 11:29
von rkecom
nein, sorry, war vielleicht etwas missverständlich von mir ausgedrückt... mit dem eintrag in die spiders.txt wird der bot nicht von der indexierung abgehalten, sondern es wird nur verhindert, dass der bot eine sitzung starten kann. er spidert also die seiten ohne session-id.

also, keine angst, damit sperrst du den bot nicht aus.

Verfasst: 30.08.2006, 12:25
von Anakin
okay danke für die hilfe.. hab ich bereits gemacht, weisst du zufällig noch was zum thema sitemap wie oben im ersten posting beschrieben?

sollte ich eventuell komplett löschen und neu generieren lassen das ganze?

Verfasst: 30.08.2006, 12:38
von rkecom
hm, keine ahnung welche erweiterung du für die sitemap einsetzt ... ich nutze die von chemo:
https://www.oscommerce.com/community/co ... le+sitemap
diese funktioniert fehlerfrei und kann ich nur empfehlen.

du musst halt darauf achten, dass in der sitemap die urls auch ohne session-ids stehen.

diese sitemap funktioniert auch einwandfrei mit seiner ultimate seo urls contribution um dyn. urls statisch aussehen zu lassen:
https://www.oscommerce.com/community/co ... h,seo+urls
diese ist ähnlich deiner erweiterung zum umschreiben der urls ... oder wenn ich das so sehe basiert deine sogar auf der erweiterung von chemo!?!?!

Verfasst: 30.08.2006, 13:47
von Anakin
ja die basiert drauf, ich hab nur die seo klasse bisserl erweitern lassen, und nutze auch die von chemo's sitemap.. dann weiss ich ja wieso die fehler kommen weil eben die ganze zeit ne session hinten dran war..

kann ich die was jetzt bei google drin ist nicht irgendwie löschen und von vorne indexieren lassen?

Verfasst: 30.08.2006, 14:25
von rkecom
jetzt, wo du prevent spiders session auf true hast, müssten ja die sessions in der sitemap weg sein ... falls nicht, sitemap neu generieren (geht ja je nachdem welche version du einsetzt automatisch oder per klick).

google holt sich die sitemap automatisch regelmässig ab ... dann hoffen und warten, dass google die alten urls mit den sids schnell rausschmeißt und mit den neuen urls ohne sids ersetzt. ist der einzige weg der mir einfällt ... alle alten urls per .htaccess umleiten ist je nachdem wieviele kategorien und produkte du hast ein bisserl viel und das löschen per konsole kann auch in die hose gehen und nach 6 monaten ca. sind die alten urls eh wieder da (den fall habe ich gerade aktuell bei einer seite).

aber vielleicht fällt hier noch jemand eine andere lösung als einfach abzuwarten ein.

Verfasst: 30.08.2006, 15:59
von Ella
problem ist, daß google die urls mit session id schon im index hat und auch wenn du es für zukünftige besuche abgestellt hast, so lassen sich diese seiten weiterhin aufrufen.

ich hatte vor nem viertel jahr, mittem im größten google-chaos ( indexumstellung etc. ) bei knapp 800 artikeln zeitweise über 30.000 seiten im index und bin dann bis auf die index komplett abgeflogen. wie sich das wirtschaftlich ausgewirkt hat, brauch ich wohl nicht zu erwähnen. ;)

allerdings kam bei mir auch noch das problem mit zwei sprachen dazu...mit anderen worten das volle chaos.

ich hab dann sogar chemo kontaktiert, der hat dann bissl was rumgebastelt, sein support war aber für die kohle nicht das was ich mir erwartet habe und bin dann reumütig zu meiner programmiererin zurückgekehrt. ;)
wenigstens hat er mich auf das problem der länderflaggen aufmerksam gemacht und es auch behoben.

um die urls mit sid aus dem index zu bekommen hab ich jetzt die hardcore variante gewählt und mein shop gibt für jeden aufruf einer url mit sid einfach nen 301er ohne umleitung aus.

dennoch sind noch immer genug der mist-urls im index bzw. werden immer wieder mal hochgespült wenn einer der google-fuzzis am index bastelt wie erst die letzten tage wieder.

grüße

Verfasst: 30.08.2006, 17:05
von rkecom
@ Ella

ist vielleicht ne blöde frage ... aber wie gibt man denn einen 301er ohne um-/bzw. weiterleitung aus bzw. was soll das bewirken?

oder meinst du, dass wenn z.b.:
hxxp://www.domain.de/Kabel_Receiver-c-82.html? ... XXXXXXXXXX
aufgerufen wird, dann auf:
hxxp://www.domain.de/Kabel_Receiver-c-82.html
ohne sid weitergeleitet wird?

gruß,
rené

Verfasst: 30.08.2006, 18:01
von Anakin
ja da bin ich auch mal gespannt auf die frage wie das gehen soll.. hab mal kontrolliert sind knapp 60 seiten im index.. müsste ich dann manuell in meine .htaccess eintippen?

hätte ich das gewusst.. shit.. ich könnte mir jetzt richtig in den hintern treten..