Seite 1 von 1

robots.txt - Wiederspruch?

Verfasst: 27.08.2004, 13:05
von jb-net
Hallo,

ich möchte bald mit meinem Forum online gehen und die Themen per mod_rewrite auf .html umschreiben, da ich aber nicht möchte, dass Google das ganze Forumscript, sondern nur die umgeschriebenen .html - Dateien lesen kann, habe ich folgendes gedacht:

- Forumscript in https://www.domain.de/forum/
- Themen (mittels mod_rewrite) https://www.domain.de/thema-1.html (verweist auf https://www.domain.de/forum/thema.php?id=1)
- Google mittels robots.txt von /forum/ ausperren

In den mod_rewrite umgeschriebenen Themen bräuchte ich natürlich im Header:

Code: Alles auswählen

<base href="http&#58;//www.domain.de/forum/">
damit die images und css funktioniert. Nun aber meine Frage, wie verhält sich das bei Google? Die ganzen Images (in einem Forum doch recht viele) darf er gar nicht aufrufen, weil sie in /forum/images/ liegen, welches ich mittels der robots.txt sperre. Bekommt Google dann die Meldung 404 für jedes Image (könnte doch für das Ranking schädlich sein, oder?) ... oder ist Google das egal (ich sprech vom normalen Bot, nicht den Image-Bot).

Und da ich AdSense einsetzen möchte, würde ich den MediaBot nicht einschränken. Der könnte also mehr spidern als der normale GoogleBot ... könnte das zu einem Konflikt werden? Würde dann Google auch die Seiten, welche er durch den Mediabot kennt im Index auflisten?

Und kennt jemand eine besser Möglichkeit wegen den images, weil ich eigentlich nicht auf den google image bot nicht verzichten möchte ...?

Verfasst:
von

Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Re: robots.txt - Wiederspruch?

Verfasst: 27.08.2004, 13:31
von Jörg
jb-net hat geschrieben:Die ganzen Images (in einem Forum doch recht viele) darf er gar nicht aufrufen, weil sie in /forum/images/ liegen, welches ich mittels der robots.txt sperre. Bekommt Google dann die Meldung 404 für jedes Image (könnte doch für das Ranking schädlich sein, oder?) ... oder ist Google das egal (ich sprech vom normalen Bot, nicht den Image-Bot).
die robots.txt gibt nur Anweisungen an die Bots bestimmte Verzeichnisse nicht zu crawlen, und an diese Anordnungen halten sich zuverlässige Bots, zu denen ich den Google Bot mal rechne, dann auch. Bots, die sich nicht an die Verbote halten, würden aber auch keine 404 erhalten, denn die Bilder liegen doch in diesem Verzeichnis?

Verfasst: 27.08.2004, 13:47
von stalker
solange du alles umschreibst wird google garnicht wissen das du neben https://www.domain.de/thema-1.html auchnoch die seite https://www.domain.de/forum/thema.php?id=1 hast ;)

Verfasst:
von

Verfasst: 27.08.2004, 14:19
von jb-net
@ Jörg: Danke! Ich meine, wenn ich Google von /forum/ aussperre, kann Google doch auch nicht auf /forum/images/ zugreifen, oder? Aber die neuen html-seiten würden in Form von images Dateien von diesem Verzeichnis enthalten ... würde das Google stören? Google könnte darauf ja nicht zugreifen.

Und würde Google dieses <base href="https://www.domain.de/forum/"> nicht stören? Das ist schließlich eine URL auf die er nicht zugreifen kann!

@ stalker: Ja, aber das Problem ist, dass mein Forenscript ziehmlich umfangreich und komplex ist und ich vorerst daher nur die themen-urls umschreiben werde ... und da wäre es mir lieber, wenn Google zuerst nur die "schönen" URLs zu Gesicht bekommt.

Verfasst: 27.08.2004, 15:04
von stalker
würde dir trotzdem dazu raten von anfang an alles umzuschreiben
dann hast du es hinter dir und vermeidest später duplicat content etc.

zum thema bilder
googlebot sieht doch nur den <img link und zieht aber nicht das bild oder irre ich da?

Verfasst: 27.08.2004, 15:26
von Jörg
mit den Bildern seh ich genau so wie stalker, der normale Google Bot interessiert sich eh nicht für diese
jb-net hat geschrieben:Und würde Google dieses <base href="https://www.domain.de/forum/"> nicht stören? Das ist schließlich eine URL auf die er nicht zugreifen kann!
dieses base-Tag sollte für interne Links auch nicht mehr gelten, denn dann führen diese wieder zu den alten URLs; die Links sollten schon der Rewrite Rule angepasst werden; sonst spidert Googl Bot zwar wegen der robots.txt nicht die alten URLs, findet aber auch nicht die neuen

Verfasst: 27.08.2004, 15:35
von jb-net
@ stalker: Das ist beim vBulletin leider nicht so einfach und würde neben einigen Problemen, die es erst zu lösen gibt eine Menge Arbeit bedeuten.

Außerdem wieso muss ich für Google alle Links umschreiben, wenn die meisten doch nur das Script und die Mitglieder betrifft ... was nützen Google PNs, wenn er sie so und so nicht lesen kann und eine Fehlermeldung vom Script bekommt.

Das einzige was doch Sinn macht sind die Themen, oder? Und die habe ich auch vor umzuschreiben. Alles andere interessiert Google und die Surfer, welche bei Google suchen doch nicht ... man würde den Google Index doch nur weiter zumüllen :roll:

@ Jörg: dieses base-Tag sollte für interne Links auch nicht mehr gelten, denn dann führen diese wieder zu den alten URLs; die Links sollten schon der Rewrite Rule angepasst werden; sonst spidert Googl Bot zwar wegen der robots.txt nicht die alten URLs, findet aber auch nicht die neuen

Das ist ja auch der Sinn (dass Google nur die neuen Links findet) ... versteh nicht ganz was du meinst ... wahrscheinlich wegen den neuen links ... ich baue die so auf: https://www.domain.de/thema-1.html (also wird das durch mod_rewrite nicht in das /forum/ Verzeichnis geleitet, sondern bleibt eben scheinbar im Hauptverzeichnis ... das baseurl brauch ich nur für die images und css ... damit diese richtig angezeigt werden, da diese im Forum nur relativ angegeben werden. Die neuen URLs würde ich aber natürlich so anegben: https://www.domain.de/thema-1.html ... meintest du das?

Die Frage ist ob Google der baseurl tag stört ... weil er dort nicht reinkann, html aber sagt, dass dies die richtige Basis-URL ist.

Verfasst: 27.08.2004, 15:59
von Jörg
jb-net hat geschrieben: Die neuen URLs würde ich aber natürlich so anegben: https://www.domain.de/thema-1.html ... meintest du das?
ja, wenn du sie so angibst, sollte das alte base-Tag kein Problem sein
Die Frage ist ob Google der baseurl tag stört ... weil er dort nicht reinkann, html aber sagt, dass dies die richtige Basis-URL ist.
wenn ich es richtig verstanden habe, braucht er diese ja nur für die relative Verlinkung der Bilder und CSS-Files, und die brauchen den Bot eh nicht zu interessieren. Die internen Links zu den HTML-Files sind dagegen absolut addressiert, dafür wird die Basis-Adresse foglich nicht benötigt

Verfasst: 27.08.2004, 16:15
von jb-net
Okay, vielen Dank für eure Hilfe! Eine Frage noch zum Schluss, wo ich noch etwas unsicher bin:

Kann Google neidisch werden, wenn er einige Bereiche der Webseite (die Links dazu findet er ja zu genüge im Forum) nicht betreten darf und könnte er daher, weil er eben teilweise ausgeschlossen wird, die gesamte Webseite schlechter bewerten? Oder nimmt das Sperren per robots.txt keine Auswirkungen auf das Ranking?

Verfasst: 27.08.2004, 17:37
von Jörg
Du meinst misstrauisch? Nein, ich denke, dass es völlig normal ist, wenn man bestimmte Verzeichnisse vom Spidern ausschließt, vor allem wenn es sich um Bilder handelt.

Verfasst: 27.08.2004, 19:43
von jb-net
okay, nochmals vielen Dank für eure Hilfe, ihr habt mir sehr geholfen!