Seite 1 von 1

Session ID in Robots.txt spider aussperren

Verfasst: 08.05.2006, 08:55
von order4you
Hallo!

Ich habe zwar die SuFu versucht zu bedienen bin allerdings bei 1600 Treffern igend wann ausgestiegen mit lesen und bis dahin noch nicht fündig geworden :(

Folgendes Problem:
Eine meiner Seiten arbeitet mit session ID´s nun habe ich gerade einmal die Startseite in den Index bekomme, aber das nun sogar schon 3 mal mit unterschiedlichen Session ID´s :(

Meine Robots.txt sieht wie folgt aus.

Code: Alles auswählen

User-agent: *
...
Disallow: /*?SiDID=*

User-agent: Googlebot
...
Disallow: /*?SiDID=*
ist dort ein fehler drin oder wieso indexiert google meine SIDID´s ?

Danke für die Hilfe!

mfg

Verfasst:
von

Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Re: Session ID in Robots.txt spider aussperren

Verfasst: 08.05.2006, 12:00
von haha
order4you hat geschrieben:

Code: Alles auswählen

User-agent: *
...
Disallow: /*?SiDID=*

User-agent: Googlebot
...
Disallow: /*?SiDID=*
ist dort ein fehler drin oder wieso indexiert google meine SIDID´s ?
Erstens ist Deine Anweisung doppelt. Das ist kein Fehler, aber wenn Du im ersten Block alle Robots ansprichst, brauchst Du keinen zweiten, der sich mit dem gleichen Inhalt speziell an Robot X wendet (es sei denn, Du hast die Unterschiede nicht zitiert).

Zweitens versteht nur der Googlebot Muster, und selbst wenn es einige andere inzwischen auch können, können es noch lange nicht alle. Die Disallow-Zeile im *-Block funktioniert also nicht wie gewünscht, weil sie nicht von allen unterstützt wird. Ist auch kein Fehler, aber ebenfalls verschönerungswürdig.

Drittens, womit wir der Ursache näher kommen, hast Du ein konzeptionelles Problem: "Session ID" heißt auf Deutsch Sitzungsnummer. Einzelne Sitzungen haben aber in allgemeinen, öffentlichen Indizes (lies: Suchmaschinen) nichts zu suchen. Entweder sorgst Du dafür, dass Deine Seiten auch ohne SID funktionieren oder Du sperrst die Seiten, die ohne SID nicht funktionieren, vollständig für Suchmaschinen. Ersteres bedeutet insbesondere, dass SIDs nicht zwangsweise vergeben werden, sondern nur optional, und dies ausschließlich über Cookies, nicht als URL-Anhängsel.
Wenn Du mal erläuterst, warum SID für Dein Projekt allgemein und in dieser Form (als URL-Parameter) unbedingt nötig sind, lässt sich ja vielleicht eine elegantere Lösung finden.

Schlechte Nachricht zum Schluss: Warum das Muster nicht funktioniert, weiß ich nicht - vermutlich geht's nur für Pfade, nicht für URL-Parameter. Dies wäre sinnig, da URL-Parameter eh nur für den jeweils abrufenden Benutzer gedacht waren und nicht als für die Allgemeinheit gültiger URL-Bestandteil und somit von Suchmaschinen grundsätzlich nur schwer zu verdauen sind.

Verfasst: 08.05.2006, 15:41
von order4you
Nun das ganze dreht sich um ein OS-Commerce Shop und der ruft beim ersten aufrufen der seite, nicht erst im Warenkorp immer die Session ID auf :(.
Ich habe da gerade noch eine Einstellung gefunde die das wohl für Spyder unterdrücken soll.
Zu den 2 Anweisungen, ich habe irgend wo einmal gelesen das man den googlebot seperat anweisen soll und seit ich das habe erscheint auch der Hinweis im Google Sitemap menü das gewisse Links ausgeschlossen sind, aber ebend die Session ID nicht :(

Danke für die schnelle antwort

Verfasst:
von

Verfasst: 08.05.2006, 16:04
von haha
order4you hat geschrieben:Nun das ganze dreht sich um ein OS-Commerce Shop und der ruft beim ersten aufrufen der seite, nicht erst im Warenkorp immer die Session ID auf :(.
Ich habe da gerade noch eine Einstellung gefunde die das wohl für Spyder unterdrücken soll.
Dafür gibt es extra eine Einstellung? Ist ja grausam. Beschwer' Dich mal beim Hersteller, warum dafür keine Cookies benutzt werden.

Verfasst: 08.05.2006, 17:50
von order4you
zumindest habe ich in deren supportforum was drüber gefunden und es mal getestet, muss nur irgend wie sehen das ich den dc jetzt wieder ausm index bekomme :(
ein shop mit 4 seiten im index und alles dc von der startseite macht sich nicht wirklich gut fürs ranking :P