Session-Ids, dynamische URLs: Nachgefragt

Beitrag von **Mudder** » 02.08.2005, 16:43

Moin,

ich bin Programmierer und habe durch meinen "Chef" mehrmals gesagt bekommen das die dynamischen Links und die Session-ID weg soll.
Diese Tipps kamen von von einigen Jungs aus dem Forum hier.

Nur ich als Programmierer habe ein paar Probleme damit. Ok dynamische Links sind kein Thema.. und ums genauer zu sagen die mod_rewrite-Bearbeitung steht seit gut 3 Monaten und das hat auch wirklich etwas gebracht..

Nur die Sache mit der Session-ID verstecken ist so ne Sache wo ich keine Lösung für weiss - genauso wie gut 10 weitere mit dennen ich die Frage bereits in einem Chat besprochen hatte.

Ich suche nun hier im Forum und sehe das ich offenbar nicht der einzige hier bin der das Problem hat.
Nur ich finde eure Lösungen doch etwas dürftig. Der eine schlägt vor die Suchmaschinen zu identifizieren und das Session-System mehr oder weniger komplett auszuschalten und die anderen wollen Google und Co einfach verbieten auf die relevanten Seiten raufzugehen.

Tut mir leid doch ich finde diese Antworten recht dürftig. Ihr gebt die Tipps, doch wie man diese bei umfangreichen CMS-Systemen umsetzen soll wisst Ihr nicht.
Auch wenn ich mir nun mit meinem ersten Post die ganze Community zum Feind mache, doch ich möchte euch doch mal freundlich dazu anstossen sich mal zu überlegen was ihr für Tipps gebt und nicht nur die Standardantworten vom Vor-Thread kopiert.

Genauso könnte man sagen: Leute! Hört auf Unfälle zu bauen und schon senkt sich der allgemeine Versicherungsbeitrag. Super Tipp nur er wird nix bringen weils nicht umsetzbar ist.
Und wie whobee bereits sagte: Die Seiten sind nicht für Suchmaschinen da, sondern für Besucher/Kunden. Hört auf Tipps zu geben wo Ihr selber keine Antwort drauf wisst und ehe Ihr Dinge behauptet schaut euch das Ranking an ehe Ihr die ewig gleichen Antworten gebt.

Mudder *leichtsauer*

von **Anzeige von ABAKUS** »

Hochwertiger Linkaufbau bei ABAKUS:

Google-konformer Linkaufbau
nachhaltiges Ranking
Linkbuilding Angebote zu fairen Preisen
internationale Backlinks

Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Beitrag von RW » 02.08.2005, 18:12

HI,
Es gibt nur die Auswahl zwischen Sessions, GET, oder Cookies für die Userkennung!

Alles weiter ist zu unsicher.

Auch "große" CMS lassen sich relativ leicht umbauen.

ohne den Quelltext umschreiben zu müssen.

Am Anfang
ob_start();
......
......
Dein CMS
......
......
$page = ob_get_contents();
ob_end_clean();
Am Ende

$urlin = array(
## 1 ##
#RewriteRule ^(.*)/(.*)/$ /datei.php?qid=$1&aid=$2
"'Verzeichnis\/datei.php\?qid=([0-9a-zA-Z-]*)(&|&)aid=([0-9a-zA-Z-]*)'",

$urlout = array(
## 1 ##

"-\\1/\\3/deine.html",
);
$page = preg_replace($urlin, $urlout, $page);

RW

Beitrag von **Mudder** » 02.08.2005, 19:54

Hmm.. interessanter Ansatzpunkt..

Hat nur einen Haken.. Wie sehen die Seiten besser aus wen sie bei Google gelistet werden?
www.url.de/seite.html (evtl. noch mit der ID hinten dran)
oder
www.url.de/123asd1a56sd16as5d1asd/seite.html

Google hat meine Seiten jedenfalls einfach nur mit seite.html drin und auch wenn durch die Session hinten dran gehängt wird wenn der User keine Cookies akzeptiert..

Hier wären wir dann wieder beim Thema, wozu gestalltet man die Seite? Für die Suchmaschine oder für den User?

von **Anzeige von ABAKUS** »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:

einzigartige Texte
suchmaschinenoptimierte Inhalte
eine sinnvolle Content-Strategie
Beratung und Umsetzung

Jetzt anfragen: 0511 / 300325-0

Beitrag von **Anonymous** » 02.08.2005, 20:24

Die Seite wird für den User gestaltet, also dass sie ihm die Infos gibt, die er sucht... und natürlich, dass er die Site auch findet, wenn er die Infos sucht... und zum finden benutzt der übliche User halt eine Suchmaschine...

Also für welchen User gestaltest du denn ne Seite, wenn sie eh keiner finden soll?

Beitrag von RW » 02.08.2005, 20:54

@Mudder
OK, noch einer...
https://forum.de.selfhtml.org/archiv/2003/5/t46763/

www.url.de/123asd1a56sd16as5d1asd/seite.html
oder...
www.url.de/seite.html#123asd1a56sd16as5d1asd

das habe ich zwar noch nicht getestet dürfte vielleicht sogar gehen wenn Du die Rechte hast.

Im Apache sollte einzustellen gehen welches Zeichen als "?" behandelt wird.

Warum dann nicht das # Zeichen?

Hat das schon mal Einer getestet?

RW

Beitrag von **Mudder** » 02.08.2005, 20:59

Nur das man seite.html über Google auch sehr gut finden kann..

Aber das ist offenbar die Paranoia hier.. wehe man vergisst nen <tag> zu schliessen und schon findet mich mein Gott "Google" nicht mehr...

====
Nachtrag:
Die Umwandlung in # sollte machbar sein.. Frage ist nur inwieweit es da wieder ärger gibt wenn der Anker nicht gefunden wird bzw. was die Suchmaschinen draus machen? Denn Anker-Einträge habe ich bei Google und Co noch nicht nicht gesehen.

Beitrag von **Southmedia** » 03.08.2005, 12:15

Umwandlung in # geht nicht da der Browser URLs vor einem # abschneidet - wenn man datei.htm#foo aufruf wird auf dem Server vom Browser nur datei.htm abgerufen.

Generell Mudder: Zwingt dich keiner hier zu lesen, zu schreiben und auf die Tipps zu hören - wenn du es selbst nicht hinbekommst kannst du gerne im Jobforum den Job posten, findet sich sicher jemand der es kann

Beitrag von **Wally** » 03.08.2005, 12:38

Jojo hat geschrieben:Zur Session:
Diese ist in der Tat Gift für Google. Ich nutze da problemlos die Useragent-Abfrage um den Googlebot zu erkennen und ihm entsprechend keine Session zu geben. Natürlich sollte man ihm aber trotzdem die selben Inhalte zeigen wie einem normalen nicht eingeloggtem Besucher. Und dies ist laut Google dann auch okay.

Hi Jojo,

steh zur Zeit vor selbigen Problem. Wie hast Du das gelöst?

Danke
wally

Beitrag von **Mudder** » 03.08.2005, 14:07

Nen Bot raussuchen ist kein Thema.. hier nen PHP-Beispiel zu.. nur der Rest des Script muss dann eben auch ohne Sessions auskommen bzw. du musst dort überall ne entsprechende Abfrage vorschalten.

Code: Alles auswählen

<?php

$crawler = array&#40;
  "Googlebot/2.1 &#40;+http&#58;//www.google.com/bot.html&#41;",
  "msnbot/1.0 &#40;+http&#58;//search.msn.com/msnbot.htm&#41;",
  "Elm@r/1.0",
  "appie 1.1 &#40;www.walhello.com&#41;",
  "Baiduspider+&#40;+http&#58;//www.baidu.com/search/spider.htm&#41;",
  "ia_archiver",
  "Seekbot/1.0 &#40;http&#58;//www.seekbot.net/bot.html&#41; HTTPFetcher/0.3"
&#41;;

$user_agent = $_SERVER&#91;'HTTP_USER_AGENT'&#93;;
if &#40;!in_array&#40;$user_agent, $crawler&#41;&#41; session_start&#40;&#41;;

?>

Beitrag von **Anonymous** » 03.08.2005, 14:11

Hmm...

ist es nicht auch so, dass Spider grundsätzlich HTTP 1.0 verwenden, Browser aber heutzutage HTTP 1.1

oder hat jemand schon nen spider mit HTTP 1.1 gesehen?

Beitrag von **Southmedia** » 03.08.2005, 15:04

Nur der Rest des Script muss dann eben auch ohne Sessions auskommen bzw. du musst dort überall ne entsprechende Abfrage vorschalten.

Alle Bereiche für die eine Session benötigt werden sind ja per Definition nichts für den Crawler da sie auf Benutzereingaben, ein bestimmtes Surfverhalten oder irgendwas userhaftes angewiesen sind - oder seh ich da was falsch?

Beitrag von RW » 03.08.2005, 15:49

@Southmedia

Joo, Du hast Recht - geht nicht mit '#'

Hast schon mal was mit

arg_separator.output

gemacht?

RW

Beitrag von **Southmedia** » 03.08.2005, 15:54

Halt ich nicht viel von, das lässt sich auch mit mod_rewrite mache und löst ja nicht das konzeptionelle Problem dass jede Menge URLs entstehen!

Die Fragezeichen und & sind nicht das Problem für Google - waren es übrigens auch nie wirklich - sondern dass viele verschiedene URLs den selben Inhalt präsentieren. Damit kommt die Suchmaschine, verständlicherweise, nicht ganz klar.

Beitrag von **Nullpointer** » 03.08.2005, 16:24

Southmedia hat geschrieben:...

Alle Bereiche für die eine Session benötigt werden sind ja per Definition nichts für den Crawler da sie auf Benutzereingaben, ein bestimmtes Surfverhalten oder irgendwas userhaftes angewiesen sind - oder seh ich da was falsch?

ich kann doch sessions auch zum loggen verwenden, dann hat das garnichts mit dem content zu tun.

Beitrag von **Southmedia** » 03.08.2005, 16:32

Was willst du bei einem Bot sinnvoll mit einer Session loggen?

Surfpfade sind bei einem Bot rein zufällig, Aufenthaltszeiten auf den Seiten auch, viele Bots kommen ja sogar gleich mit 10 IPs und Hostnames bei einem Crawl und bekämen dementsprechend 10 verschiedene Sessions. MIt fällt da echt nichts sinnvolles ein.