Seite 1 von 2

Session Id Googlebot aussperren Folgen ?

Verfasst: 05.07.2007, 18:38
von snarby
Welche Folgen hat es wenn ich in der htaccess den Googlebot und die anderen Suchmaschinenrobots keine Session-ID mehr gebe ?

Hat einer von euch nen guten code für die htaccess ?

Verfasst:
von

Verfasst: 05.07.2007, 18:40
von sean
soweit ich informiert bin stört Google sich nicht (mehr) an SessionIDs.

Gruß

sean

Verfasst: 05.07.2007, 19:15
von snarby
ja aber ich hab dan 1000 Seiten mit DC im GoogleIndex.

;(

Verfasst:
von

Verfasst: 31.03.2008, 11:55
von ToM80
Ich würde hier ganz gern eine Frage ansetzen.
Ich habe das Problem, dass Google meine Seiten sowohl normal, als auch mit einer Session-ID indexiert und im Suchergebnis auflistet. Kann ich das irgendwie verhindern?

Verfasst: 31.03.2008, 12:04
von emel
Ist es denn technisch ein so grosser Aufwand, so umzustellen, dass Session-IDs nicht mehr sichtbar übergeben werden??

Verfasst: 31.03.2008, 14:49
von ToM80
Die Session-IDs werden ja nur angehangen, wenn die Cookies deaktiviert sind.
Was mich besonders wundert, ist halt die Tatsache, dass die Seiten sowohl mit als ohne Session-ID gelistet werden. Sie sind also doppelt im Index erfasst.

Verfasst: 31.03.2008, 15:27
von claude
SessionIDs führen immer zu DC, um dies zu verhindern schaltet man sie am besten bei Bots ganz aus. Ich habe es so gelöst:

if (preg_match('/googlebot|msnbot|yahoobot/i', $_SERVER['HTTP_USER_AGENT']) === 1)
{
ini_set("url_rewriter.tags","");
}

Verfasst: 31.03.2008, 16:26
von ToM80
Danke für die Lösung :) Das ist in der Tat ein im Prinzip machbarer Weg. Problem ist nur, dass diese Seite auf joomla basiert.
Ich bin nur nachträglich für diese Seite Admin geworden, jetzt muss ich erst mal sehen wo ich den FTP-Zugriff herbekomme, weil im Joomla-Tool konnte ich keine Einstellungsmöglichkeit finden.

Verfasst: 31.03.2008, 20:39
von Beach-Baer
ToM80 hat geschrieben:Ich würde hier ganz gern eine Frage ansetzen.
Ich habe das Problem, dass Google meine Seiten sowohl normal, als auch mit einer Session-ID indexiert und im Suchergebnis auflistet. Kann ich das irgendwie verhindern?
Wenn Du nicht an den Quellcode kommst, kannst Du in die Robots.txt auch ein Disallow: /*sessionid* eintragen. Das macht natürlich nur dann Sinn, wenn die URLs mit den Session IDs auch wirklich noch ohne die ID vorhanden sind.

Gruß Kay

Verfasst: 01.04.2008, 08:08
von ToM80
Perfekt, dass macht es ja noch einfacher :) Danke.
Ja die URLs liegen auch ohne SessID vor. Ich weiß eh nicht so recht warum diese dort auch an nicht angemeldete User vergeben wird. Wie gesagt habe die Seite nur übernommen aber nicht aufgesetzt ;)

Danke zumindest für eure Tipps, werde die Idee mit den robots.txt gleich umsetzen

Verfasst: 18.06.2008, 10:44
von herbert00
Hi,

auch bei meiner Seite werden session id's vergeben. Natürlich sind die Seite auch ohne Session id's aufrufbar.
Die Session id wird nach folgendem Muster vergeben:

https://www.***.de/***;jsessionid=w0dLYYHSsP2Qzcf275610

Wie muss der Befehl in der robots.txt lauten, damit diese Seite nicht mehr indexiert wird?

Danke und Gruß
Herbert

Verfasst: 18.06.2008, 14:41
von Beach-Baer
Moin Moin :-),

probier mal mit: Disallow: /*sessionid*

So werden alles URLs ignoriert, in den 'sessionid' vorkommt. Bei Dir also demzufolge https://www.***.de/***;jsessionid=w0dLYYHSsP2Qzcf275610.

Das gilt aber nur für Google, die meisten anderen Suchmaschinen ignorieren * als Platzhalter.

Gruß Kay

Verfasst: 28.06.2008, 18:22
von hitmore
Hallo,

ich muss diesen Thread nochmal weiterführen, da ich zu dem ganzen Thema ne Frage hab.

und zwar folgendes:

Typo3 als CMS --> eine index.php?id=xxx

Diese Datei gibt es ja mehrere Male und die Webmastertools zeigen mir an, dass diese genau den gleichen Content liefern wie meine statischen Seiten, was ja auch richtig ist. Ich möchte nun all diese index.php - Seiten ausschließen.

Kann ich das mit robots.txt machen ?
Wenn ja wie ?

Ich habe gelesen, dass die robots.txt keine Wildcards wie * zulässt?

Kann mir jemand weiterhelfen ?

Vg
H

Verfasst: 28.06.2008, 18:31
von Beach-Baer
Moin,

mit einem:

Code: Alles auswählen

Disallow: /*index.php?id=*
Google unterstützt Wildcards!

Gruß Kay

Verfasst: 28.06.2008, 18:36
von hitmore
super Danke dir - ich habe gerade das hier gefunden

Disallow: /*index.php?id=*

https://www.google.com/support/webmaste ... swer=40367

Disallow: /*?

Ist wohl dann ähnlich oder ?
nur für alle Dateien mit Fragezeichen??

Muss bei deinem Beispiel vor index.php ein * stehen?