Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Kann mir eine solche Robots.txt schaden?

Dieses Forum ist für Informationen über Google gedacht (Ausser PageRank!).
Neues Thema Antworten
SonnyB
PostRank 3
PostRank 3
Beiträge: 65
Registriert: 03.05.2004, 14:25

Beitrag von SonnyB » 13.08.2005, 13:07

Hallo zusammen,

in meinem phpBB-Forum habe ich auch mit dem Thema "Doppelten Content" zu kämpfen. Ich habe bereits einige Beiträge dazu hier gelesen, bin aber nicht unbedingt schlauer geworden.

Das Problem

Durch den SEO MOD habe ich doppelte Seiten, wie:

Code: Alles auswählen

thema1111.html
und

Code: Alles auswählen

thema1111-0.html
Dies liegt an der Navigation von phpbb.

Ein weiteres Problem liegt in solchen Links

Code: Alles auswählen

thema1111-0-asc-15.html
die den gleichen Inhalt darstellen, wie

Code: Alles auswählen

thema1111-0-15.html
Ich habe nun folgende Lösung gefunden, bin aber noch skeptisch:

Code: Alles auswählen

Disallow: /forum/thema*-0.html$
Disallow: /forum/thema*asc*.html$
Hat jemand Erfahrungen damit? Kann ich das so ohne weiteres in die Robots.txt Datei einbauen oder kann ich damit gar was kaputt machen?

Danke. :wink:

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

bydlo
PostRank 9
PostRank 9
Beiträge: 2209
Registriert: 11.12.2004, 01:03
Wohnort: Berlin

Beitrag von bydlo » 13.08.2005, 16:35

ahoi ,
das liegt an dem seomod.
dort solltest du das problem auch fixen weil in diesem fall die lösung mit der robots reine flickschusterei wäre.
hatte das problem in kleinerem ausmass auch und mir wurde hier
https://www.abakus-internet-marketing.d ... ight-.html
geholfen
gruss axel
PS: Suchfunktion :wink:

SonnyB
PostRank 3
PostRank 3
Beiträge: 65
Registriert: 03.05.2004, 14:25

Beitrag von SonnyB » 13.08.2005, 17:21

Hi Axel,

nein der MOD ist sauber implementiert. Kannte deinen Beitrag schon.

Es geht nur darum, die doppelten Seiten rauszubekommen.

Es gibt 2 Möglichkeiten:

(Tiefgreifende) Veränderungen an der phpBB Software

oder

Ausschluss durch Robots.txt

Wer hat hier ne Antwort? :D

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

[btk]tobi
PostRank 8
PostRank 8
Beiträge: 890
Registriert: 11.10.2004, 05:02
Wohnort: Stuttgart

Beitrag von [btk]tobi » 13.08.2005, 17:53

Auf die Robots.txt würde ich mich nicht verlassen, ich hab damit eher schlechte Erfahrungen.
Deshalb einfach alle Links so umbauen das es kein DC mehr gibt. So tiefgehend sind die Veränderungen an der Software garnicht. Ich hab das alles mal auf https://seo-phpbb.pc-freakforum.de/ zusammengefasst.

Hobby-SEO
PostRank 5
PostRank 5
Beiträge: 337
Registriert: 04.06.2005, 13:56

Beitrag von Hobby-SEO » 13.08.2005, 20:43

Hallo [btk]tobi,

das von SonnyB beschriebene Problem tritt in der Tat auf, wenn man Larsneos Short-URLs-Mod in der ursprünglichen Fassung einbaut:

https://www.phpbb.de/viewtopic.php?t=44090&start=0

Nun die Frage: Ist Deine Variante, die unter https://seo-phpbb.pc-freakforum.de/dateinamen.php nachzulesen ist, diesbezüglich besser?

In diesem Fall würde ich mich nämlich noch einmal zu ein paar Code-Änderungen hinreißen lassen!

EDIT: @SonnyB:

Wildcards (*) in der robots.txt werden nur von Google unterstützt. Also User-agent: Googlebot benutzen und dabei für Google alle weiteren Disallow-Regeln noch einmal gesondert anführen. Aus dem Disallow-Regelwerk für alle anderen Bots (User-agent: *) sollten die Wildcards entfernt werden (ist sonst nämlich keine valide robots.txt mehr).

@[btk]tobi:

Habe Deinen Short-URLs-Mod gerade ausprobiert: Die doppelten URLs für längere Threads, die sich über mehrere Seiten erstrecken, verschwinden tatsächlich! Gefällt mir.
Was mir weniger gefällt, ist, dass der Thread-Titel - wenn man den Thread gerade liest - plötzlich wieder als viewtopic.php?t=xx&start=0 etc. angegeben wird.

Eine Mischung aus Larsneos und Tobis Short-URL-Mod wäre optimal. Glaube aber nicht, dass ich das hinbekomme. Aber wenn ich mal mehr Zeit habe, versuche ich es.

LG, Hobby-SEO

SonnyB
PostRank 3
PostRank 3
Beiträge: 65
Registriert: 03.05.2004, 14:25

Beitrag von SonnyB » 13.08.2005, 22:59

Ok, danke soweit.

Noch einmal ein kurzes Zwischenfazit: Meine Robots.txt Lösung schadet mir also nicht, wenn ich den speziell für den Google Bot einrichte. Richtig? :)

Hobby-SEO
PostRank 5
PostRank 5
Beiträge: 337
Registriert: 04.06.2005, 13:56

Beitrag von Hobby-SEO » 13.08.2005, 23:23

@ SonnyB:

Das siehst Du korrekt!

Nur möglicherweise werden Teile Deiner Threads, die sich über mehrere Seiten erstrecken, nicht gespidert, und zwar dann - und nur dann - wenn sie mit Disallow: /forum/thema*-0.html$ vom Spidern ausgeschlossen werden sollten.

Ich weiß ja nicht, in welcher Form z.B. die Seite 2 eines langen Threads in Deinem Forum verlinkt wird. Wenn es auf eine Weise geschieht, die nicht unter die oben genannte Disallow-Regel fällt, kann Dir durch eine solche robots.txt speziell für den Googlebot überhaupt nichts passieren.

(Ein Beispiel: Bei Tobis Short-URL-Mod liegt die erste Seite eines längeren Threads z.B. in der Form ftopic10.html vor, und die zweite Seite als ftopic10-15.html. Durch Disallow: /forum/ftopic*-15.html$ würde die zweite Seite des Threads vom Spidern ausgeschlossen werden.)

Hoffe, ich habe alle Klarheiten beseitigt (oder so ähnlich)!
Hobby-SEO

[btk]tobi
PostRank 8
PostRank 8
Beiträge: 890
Registriert: 11.10.2004, 05:02
Wohnort: Stuttgart

Beitrag von [btk]tobi » 14.08.2005, 00:10

Wenn du alles so umbaust wie ich es auf der Seite beschrieben hab solltest du eigendlich nirgends mehr DC bekommen.

Bei den Mehrseitigen Threads solltest du das hier beachten:

Code: Alles auswählen

$urlin =
array(
$prefix . '&#40;?<!/&#41;index.php"|',
$prefix . '&#40;?<!/&#41;viewforum.php\?f=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;topicdays=0&&#40;?&#58;amp;&#41;start=0"|',
$prefix . '&#40;?<!/&#41;viewforum.php\?f=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;topicdays=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;start=&#40;&#91;0-9&#93;*&#41;"|',
$prefix . '&#40;?<!/&#41;viewforum.php\?f=&#40;&#91;0-9&#93;*&#41;"|',
$prefix . '&#40;?<!/&#41;viewtopic.php\?t=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;postdays=0&&#40;?&#58;amp;&#41;postorder=asc&&#40;?&#58;amp;&#41;start=0"|',
$prefix . '&#40;?<!/&#41;viewtopic.php\?t=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;postdays=0&&#40;?&#58;amp;&#41;postorder=asc&&#40;?&#58;amp;&#41;start=&#40;&#91;0-9&#93;*&#41;"|',
$prefix . '&#40;?<!/&#41;viewtopic.php\?t=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;postdays=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;postorder=&#40;&#91;a-zA-Z&#93;*&#41;&&#40;?&#58;amp;&#41;start=&#40;&#91;0-9&#93;*&#41;"|',
$prefix . '&#40;?<!/&#41;viewtopic.php\?t=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;start=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;postdays=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;postorder=&#40;&#91;a-zA-Z&#93;*&#41;&&#40;?&#58;amp;&#41;highlight=&#40;&#91;a-zA-Z0-9&#93;*&#41;"|',
$prefix . '&#40;?<!/&#41;viewtopic.php\?t=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;start=0"|',
$prefix . '&#40;?<!/&#41;viewtopic.php\?t=&#40;&#91;0-9&#93;*&#41;&&#40;?&#58;amp;&#41;start=&#40;&#91;0-9&#93;*&#41;"|',
$prefix . '&#40;?<!/&#41;viewtopic.php\?t=&#40;&#91;0-9&#93;*&#41;"|',
$prefix . '&#40;?<!/&#41;profile.php\?mode=viewprofile&&#40;?&#58;amp;&#41;u=&#40;&#91;0-9&#93;*&#41;"|',

&#41;;
$urlout = array&#40;
'"forums.html"',
'"forum\\1.html"',
'"viewforum\\1-\\2-\\3.html"',
'"forum\\1.html"',
'"ftopic\\1.html"',
'"ftopic\\1-\\2.html"',
'"ftopic\\1-\\2-\\3-\\4.html"',
'"ftopic\\1.html"',
'"ftopic\\1.html"',
'"ftopic\\1-\\2.html"',
'"ftopic\\1.html"',
'"user-\\1.html"',
&#41;;
Damit wird die erste Seite ausschließlich unter ftopic123.html aufgerufen. Die 2. Seite ist dann ftopic123-15.html was ja auch OK ist. Ich hab mal unter https://seo-phpbb.pc-freakforum.de/demo/ ein Demoforum installiert. Das einzige was mich noch stört ist das Google die Button für Antwort/Neues Thema spidert. Die könnte man zwar für Gäste ausblenden aber auch nur wenn nirgends Gäste Posten dürfen.

Hobby-SEO
PostRank 5
PostRank 5
Beiträge: 337
Registriert: 04.06.2005, 13:56

Beitrag von Hobby-SEO » 14.08.2005, 00:45

Hobby-SEO hat geschrieben:@[btk]tobi:
Was mir weniger gefällt, ist, dass der Thread-Titel - wenn man den Thread gerade liest - plötzlich wieder als viewtopic.php?t=xx&start=0 etc. angegeben wird.
So, das Problem ist auch gelöst: Ich habe in der viewtopic_body.tpl einfach den Link zum Topic-Title entfernt und gleichzeitig ein <h1>-Tag mit dem Topic-Title eingebaut, wie auf folgender Seite vorgeschlagen:
https://seo-phpbb.pc-freakforum.de/html-optimieren.php

Was mir jetzt immer noch nicht gefällt - und nun kommen wir wieder auf die robots.txt zu sprechen -, ist, dass nach dem Einbau von Tobis Mod plötzlich jeder User eine eigene Profil-Seite im HTML-Format hat, also:

user-1.html
user-2.html etc.

Diese Seiten möchte ich nun für die Spider sperren! Dies müsste doch - auch ohne die Verwendung von Wildcards - einfach durch folgende Zeile möglich sein, oder:

Disallow: /forum/user

Für den Googlebot könnte man zwar Disallow: /forum/user*.html$ angeben; aber die oben genannte Disallow-Regel müsste eigentlich für alle Bots gültig sein, oder sehe ich das falsch? Es wäre ja ziemlich blöd, wenn für jeden User plötzlich eine eigene, größtenteils identische HTML-Seite im Google-Index wäre... (Es droht ja wieder doppelter bzw. in diesem Fall sogar multipler Content, wenn sich pro Seite gerade mal ein paar Wörter unterscheiden.)

LG, Hobby-SEO

[btk]tobi
PostRank 8
PostRank 8
Beiträge: 890
Registriert: 11.10.2004, 05:02
Wohnort: Stuttgart

Beitrag von [btk]tobi » 14.08.2005, 11:17

@ Hobby-SEO:

Lass infach in der page_header.php die Zeilen

$prefix . '(?<!/)profile.php\?mode=viewprofile&(?:amp;)u=([0-9]*)"|',
und
'"user-\\1.html"',

weg, dann hast du wieder eine normale profile.php die du per Robots.txt sperren kanst.

SonnyB
PostRank 3
PostRank 3
Beiträge: 65
Registriert: 03.05.2004, 14:25

Beitrag von SonnyB » 14.08.2005, 11:21

Vielen, vielen Dank. Hab das Problem dank des genialen MODs gelöst.

Ich denke, es macht jetzt Sinn die beschriebene Robots.txt bei Google anzumelden, um die noch gecachten doppelten Inhalte zu löschen.

Oder spricht da was dagegen? :D

Hobby-SEO
PostRank 5
PostRank 5
Beiträge: 337
Registriert: 04.06.2005, 13:56

Beitrag von Hobby-SEO » 14.08.2005, 16:57

@ [btk]tobi:

Zunächst einmal herzliches Dankeschön für Deine Zusammenfassung, wie man phpbb etwas suchmaschinenfreundlicher gestalten kann - ist wirklich sehr hilfreich!

Die page_header.php werde ich vorerst nicht weiter verändern, weil mir Deine Lösung mit den user-x.html-Links optisch eigentlich schon besser gefällt. Ich versuche lieber den Weg über die robots.txt:

User-agent: Googlebot
Disallow: /*?
Disallow: /forum/admin/
Disallow: /forum/db/
Disallow: /forum/images/
Disallow: /forum/includes/
Disallow: /forum/language/
Disallow: /forum/templates/
Disallow: /forum/common.php
Disallow: /forum/faq.php
Disallow: /forum/config.php
Disallow: /forum/groupcp.php
Disallow: /forum/modcp.php
Disallow: /forum/memberlist.php
Disallow: /forum/privmsg.php
Disallow: /forum/profile.php
Disallow: /forum/posting.php
Disallow: /forum/ranks.php
Disallow: /forum/search.php
Disallow: /forum/viewonline.php
Disallow: /forum/viewtopic.php
Disallow: /forum/login.php
Disallow: /forum/user*.html$
Disallow: /forum/user

User-agent: *

dasselbe wie oben, nur ohne:

Disallow: /*?
Disallow: /forum/user*.html$

Müsste so doch wohl auch klappen, oder?

@SonnyB:

Du kannst Deine robots.txt zwar schon anmelden; aber früher oder später sollten die doppelten Inhalte sowieso von alleine aus dem Google-Index fliegen, weil es die entsprechenden Dateien durch das Rewriting nicht mehr gibt. Ich bin mir ziemlich sicher, dass Google das schon erkennt - auch wenn die Seiten noch eine Zeitlang doppelt im Index vorliegen.

LG, Hobby-SEO

Daniel_74
PostRank 5
PostRank 5
Beiträge: 247
Registriert: 30.07.2005, 23:00

Beitrag von Daniel_74 » 15.08.2005, 19:55

Hallo,

kann ich diese MODs auch auf einem WIN2003 Server für mein PHPBB Forum anwenden ? Ich denke nein, da alles mit mod-rewrite funktioniert nicht ?
Wenn dem so wáre, gibt es da auch andere Lösungen für Leute die auf WIN2003 hosten?

danke
Daniel

Ice Man
PostRank 9
PostRank 9
Beiträge: 2477
Registriert: 04.06.2003, 19:16

Beitrag von Ice Man » 16.08.2005, 13:42

$prefix . '(?<!/)index.php"|',

das und das
'"forums.html"',
Die Index.php willst du doch nicht wirklich entfernen oder ?
Denn im Moment haben die index.php und die Forums.html die gleichen Inhalte = DC

SonnyB
PostRank 3
PostRank 3
Beiträge: 65
Registriert: 03.05.2004, 14:25

Beitrag von SonnyB » 16.08.2005, 15:59

Ja, sehe ich genau so. Das mit der forums.html habe ich nicht eingebaut.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag