Seite 1 von 1

Kann mir eine solche Robots.txt schaden?

Verfasst: 13.08.2005, 13:07
von SonnyB
Hallo zusammen,

in meinem phpBB-Forum habe ich auch mit dem Thema "Doppelten Content" zu kämpfen. Ich habe bereits einige Beiträge dazu hier gelesen, bin aber nicht unbedingt schlauer geworden.

Das Problem

Durch den SEO MOD habe ich doppelte Seiten, wie:

Code: Alles auswählen

thema1111.html
und

Code: Alles auswählen

thema1111-0.html
Dies liegt an der Navigation von phpbb.

Ein weiteres Problem liegt in solchen Links

Code: Alles auswählen

thema1111-0-asc-15.html
die den gleichen Inhalt darstellen, wie

Code: Alles auswählen

thema1111-0-15.html
Ich habe nun folgende Lösung gefunden, bin aber noch skeptisch:

Code: Alles auswählen

Disallow: /forum/thema*-0.html$
Disallow: /forum/thema*asc*.html$
Hat jemand Erfahrungen damit? Kann ich das so ohne weiteres in die Robots.txt Datei einbauen oder kann ich damit gar was kaputt machen?

Danke. :wink:

Verfasst:
von

Verfasst: 13.08.2005, 16:35
von bydlo
ahoi ,
das liegt an dem seomod.
dort solltest du das problem auch fixen weil in diesem fall die lösung mit der robots reine flickschusterei wäre.
hatte das problem in kleinerem ausmass auch und mir wurde hier
https://www.abakus-internet-marketing.d ... ight-.html
geholfen
gruss axel
PS: Suchfunktion :wink:

Kann mir eine solche Robots.txt schaden?

Verfasst: 13.08.2005, 17:21
von SonnyB
Hi Axel,

nein der MOD ist sauber implementiert. Kannte deinen Beitrag schon.

Es geht nur darum, die doppelten Seiten rauszubekommen.

Es gibt 2 Möglichkeiten:

(Tiefgreifende) Veränderungen an der phpBB Software

oder

Ausschluss durch Robots.txt

Wer hat hier ne Antwort? :D

Verfasst:
von

Kann mir eine solche Robots.txt schaden?

Verfasst: 13.08.2005, 17:53
von [btk]tobi
Auf die Robots.txt würde ich mich nicht verlassen, ich hab damit eher schlechte Erfahrungen.
Deshalb einfach alle Links so umbauen das es kein DC mehr gibt. So tiefgehend sind die Veränderungen an der Software garnicht. Ich hab das alles mal auf https://seo-phpbb.pc-freakforum.de/ zusammengefasst.

Verfasst: 13.08.2005, 20:43
von Hobby-SEO
Hallo [btk]tobi,

das von SonnyB beschriebene Problem tritt in der Tat auf, wenn man Larsneos Short-URLs-Mod in der ursprünglichen Fassung einbaut:

https://www.phpbb.de/viewtopic.php?t=44090&start=0

Nun die Frage: Ist Deine Variante, die unter https://seo-phpbb.pc-freakforum.de/dateinamen.php nachzulesen ist, diesbezüglich besser?

In diesem Fall würde ich mich nämlich noch einmal zu ein paar Code-Änderungen hinreißen lassen!

EDIT: @SonnyB:

Wildcards (*) in der robots.txt werden nur von Google unterstützt. Also User-agent: Googlebot benutzen und dabei für Google alle weiteren Disallow-Regeln noch einmal gesondert anführen. Aus dem Disallow-Regelwerk für alle anderen Bots (User-agent: *) sollten die Wildcards entfernt werden (ist sonst nämlich keine valide robots.txt mehr).

@[btk]tobi:

Habe Deinen Short-URLs-Mod gerade ausprobiert: Die doppelten URLs für längere Threads, die sich über mehrere Seiten erstrecken, verschwinden tatsächlich! Gefällt mir.
Was mir weniger gefällt, ist, dass der Thread-Titel - wenn man den Thread gerade liest - plötzlich wieder als viewtopic.php?t=xx&start=0 etc. angegeben wird.

Eine Mischung aus Larsneos und Tobis Short-URL-Mod wäre optimal. Glaube aber nicht, dass ich das hinbekomme. Aber wenn ich mal mehr Zeit habe, versuche ich es.

LG, Hobby-SEO

Kann mir eine solche Robots.txt schaden?

Verfasst: 13.08.2005, 22:59
von SonnyB
Ok, danke soweit.

Noch einmal ein kurzes Zwischenfazit: Meine Robots.txt Lösung schadet mir also nicht, wenn ich den speziell für den Google Bot einrichte. Richtig? :)

Kann mir eine solche Robots.txt schaden?

Verfasst: 13.08.2005, 23:23
von Hobby-SEO
@ SonnyB:

Das siehst Du korrekt!

Nur möglicherweise werden Teile Deiner Threads, die sich über mehrere Seiten erstrecken, nicht gespidert, und zwar dann - und nur dann - wenn sie mit Disallow: /forum/thema*-0.html$ vom Spidern ausgeschlossen werden sollten.

Ich weiß ja nicht, in welcher Form z.B. die Seite 2 eines langen Threads in Deinem Forum verlinkt wird. Wenn es auf eine Weise geschieht, die nicht unter die oben genannte Disallow-Regel fällt, kann Dir durch eine solche robots.txt speziell für den Googlebot überhaupt nichts passieren.

(Ein Beispiel: Bei Tobis Short-URL-Mod liegt die erste Seite eines längeren Threads z.B. in der Form ftopic10.html vor, und die zweite Seite als ftopic10-15.html. Durch Disallow: /forum/ftopic*-15.html$ würde die zweite Seite des Threads vom Spidern ausgeschlossen werden.)

Hoffe, ich habe alle Klarheiten beseitigt (oder so ähnlich)!
Hobby-SEO

Kann mir eine solche Robots.txt schaden?

Verfasst: 14.08.2005, 00:10
von [btk]tobi
Wenn du alles so umbaust wie ich es auf der Seite beschrieben hab solltest du eigendlich nirgends mehr DC bekommen.

Bei den Mehrseitigen Threads solltest du das hier beachten:

Code: Alles auswählen

$urlin =
array(
$prefix . '&#40;?<!/&#41;index.php"|',
$prefix . '&#40;?<!/&#41;viewforum.php\?f=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;topicdays=0&&#40;?&#58;amp;&#41;start=0"|',
$prefix . '&#40;?<!/&#41;viewforum.php\?f=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;topicdays=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;start=&#40;&#91;0-9&#93;*&#41;"|',
$prefix . '&#40;?<!/&#41;viewforum.php\?f=&#40;&#91;0-9&#93;*&#41;"|',
$prefix . '&#40;?<!/&#41;viewtopic.php\?t=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;postdays=0&&#40;?&#58;amp;&#41;postorder=asc&&#40;?&#58;amp;&#41;start=0"|',
$prefix . '&#40;?<!/&#41;viewtopic.php\?t=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;postdays=0&&#40;?&#58;amp;&#41;postorder=asc&&#40;?&#58;amp;&#41;start=&#40;&#91;0-9&#93;*&#41;"|',
$prefix . '&#40;?<!/&#41;viewtopic.php\?t=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;postdays=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;postorder=&#40;&#91;a-zA-Z&#93;*&#41;&&#40;?&#58;amp;&#41;start=&#40;&#91;0-9&#93;*&#41;"|',
$prefix . '&#40;?<!/&#41;viewtopic.php\?t=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;start=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;postdays=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;postorder=&#40;&#91;a-zA-Z&#93;*&#41;&&#40;?&#58;amp;&#41;highlight=&#40;&#91;a-zA-Z0-9&#93;*&#41;"|',
$prefix . '&#40;?<!/&#41;viewtopic.php\?t=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;start=0"|',
$prefix . '&#40;?<!/&#41;viewtopic.php\?t=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;start=&#40;&#91;0-9&#93;*&#41;"|',
$prefix . '&#40;?<!/&#41;viewtopic.php\?t=&#40;&#91;0-9&#93;*&#41;"|',
$prefix . '&#40;?<!/&#41;profile.php\?mode=viewprofile&&#40;?&#58;amp;&#41;u=&#40;&#91;0-9&#93;*&#41;"|',

&#41;;
$urlout = array&#40;
'"forums.html"',
'"forum\\1.html"',
'"viewforum\\1-\\2-\\3.html"',
'"forum\\1.html"',
'"ftopic\\1.html"',
'"ftopic\\1-\\2.html"',
'"ftopic\\1-\\2-\\3-\\4.html"',
'"ftopic\\1.html"',
'"ftopic\\1.html"',
'"ftopic\\1-\\2.html"',
'"ftopic\\1.html"',
'"user-\\1.html"',
&#41;;
Damit wird die erste Seite ausschließlich unter ftopic123.html aufgerufen. Die 2. Seite ist dann ftopic123-15.html was ja auch OK ist. Ich hab mal unter https://seo-phpbb.pc-freakforum.de/demo/ ein Demoforum installiert. Das einzige was mich noch stört ist das Google die Button für Antwort/Neues Thema spidert. Die könnte man zwar für Gäste ausblenden aber auch nur wenn nirgends Gäste Posten dürfen.

Verfasst: 14.08.2005, 00:45
von Hobby-SEO
Hobby-SEO hat geschrieben:@[btk]tobi:
Was mir weniger gefällt, ist, dass der Thread-Titel - wenn man den Thread gerade liest - plötzlich wieder als viewtopic.php?t=xx&start=0 etc. angegeben wird.
So, das Problem ist auch gelöst: Ich habe in der viewtopic_body.tpl einfach den Link zum Topic-Title entfernt und gleichzeitig ein <h1>-Tag mit dem Topic-Title eingebaut, wie auf folgender Seite vorgeschlagen:
https://seo-phpbb.pc-freakforum.de/html-optimieren.php

Was mir jetzt immer noch nicht gefällt - und nun kommen wir wieder auf die robots.txt zu sprechen -, ist, dass nach dem Einbau von Tobis Mod plötzlich jeder User eine eigene Profil-Seite im HTML-Format hat, also:

user-1.html
user-2.html etc.

Diese Seiten möchte ich nun für die Spider sperren! Dies müsste doch - auch ohne die Verwendung von Wildcards - einfach durch folgende Zeile möglich sein, oder:

Disallow: /forum/user

Für den Googlebot könnte man zwar Disallow: /forum/user*.html$ angeben; aber die oben genannte Disallow-Regel müsste eigentlich für alle Bots gültig sein, oder sehe ich das falsch? Es wäre ja ziemlich blöd, wenn für jeden User plötzlich eine eigene, größtenteils identische HTML-Seite im Google-Index wäre... (Es droht ja wieder doppelter bzw. in diesem Fall sogar multipler Content, wenn sich pro Seite gerade mal ein paar Wörter unterscheiden.)

LG, Hobby-SEO

Kann mir eine solche Robots.txt schaden?

Verfasst: 14.08.2005, 11:17
von [btk]tobi
@ Hobby-SEO:

Lass infach in der page_header.php die Zeilen

$prefix . '(?<!/)profile.php\?mode=viewprofile&(?:amp;)u=([0-9]*)"|',
und
'"user-\\1.html"',

weg, dann hast du wieder eine normale profile.php die du per Robots.txt sperren kanst.

Kann mir eine solche Robots.txt schaden?

Verfasst: 14.08.2005, 11:21
von SonnyB
Vielen, vielen Dank. Hab das Problem dank des genialen MODs gelöst.

Ich denke, es macht jetzt Sinn die beschriebene Robots.txt bei Google anzumelden, um die noch gecachten doppelten Inhalte zu löschen.

Oder spricht da was dagegen? :D

Verfasst: 14.08.2005, 16:57
von Hobby-SEO
@ [btk]tobi:

Zunächst einmal herzliches Dankeschön für Deine Zusammenfassung, wie man phpbb etwas suchmaschinenfreundlicher gestalten kann - ist wirklich sehr hilfreich!

Die page_header.php werde ich vorerst nicht weiter verändern, weil mir Deine Lösung mit den user-x.html-Links optisch eigentlich schon besser gefällt. Ich versuche lieber den Weg über die robots.txt:

User-agent: Googlebot
Disallow: /*?
Disallow: /forum/admin/
Disallow: /forum/db/
Disallow: /forum/images/
Disallow: /forum/includes/
Disallow: /forum/language/
Disallow: /forum/templates/
Disallow: /forum/common.php
Disallow: /forum/faq.php
Disallow: /forum/config.php
Disallow: /forum/groupcp.php
Disallow: /forum/modcp.php
Disallow: /forum/memberlist.php
Disallow: /forum/privmsg.php
Disallow: /forum/profile.php
Disallow: /forum/posting.php
Disallow: /forum/ranks.php
Disallow: /forum/search.php
Disallow: /forum/viewonline.php
Disallow: /forum/viewtopic.php
Disallow: /forum/login.php
Disallow: /forum/user*.html$
Disallow: /forum/user

User-agent: *

dasselbe wie oben, nur ohne:

Disallow: /*?
Disallow: /forum/user*.html$

Müsste so doch wohl auch klappen, oder?

@SonnyB:

Du kannst Deine robots.txt zwar schon anmelden; aber früher oder später sollten die doppelten Inhalte sowieso von alleine aus dem Google-Index fliegen, weil es die entsprechenden Dateien durch das Rewriting nicht mehr gibt. Ich bin mir ziemlich sicher, dass Google das schon erkennt - auch wenn die Seiten noch eine Zeitlang doppelt im Index vorliegen.

LG, Hobby-SEO

Kann mir eine solche Robots.txt schaden?

Verfasst: 15.08.2005, 19:55
von Daniel_74
Hallo,

kann ich diese MODs auch auf einem WIN2003 Server für mein PHPBB Forum anwenden ? Ich denke nein, da alles mit mod-rewrite funktioniert nicht ?
Wenn dem so wáre, gibt es da auch andere Lösungen für Leute die auf WIN2003 hosten?

danke
Daniel

Kann mir eine solche Robots.txt schaden?

Verfasst: 16.08.2005, 13:42
von Ice Man
$prefix . '(?<!/)index.php"|',

das und das
'"forums.html"',
Die Index.php willst du doch nicht wirklich entfernen oder ?
Denn im Moment haben die index.php und die Forums.html die gleichen Inhalte = DC

Kann mir eine solche Robots.txt schaden?

Verfasst: 16.08.2005, 15:59
von SonnyB
Ja, sehe ich genau so. Das mit der forums.html habe ich nicht eingebaut.