Seite 1 von 2

Robots.txt und sitemap.txt im Index

Verfasst: 10.04.2010, 08:30
von Schneehenry
Musste feststellen, dass meine robots.txt sowie eine sitemap.txt in der Ergebnislsite auftauchen, wenn ich eine site: Abfrage bei google mache.


Ist das korrekt?

Verfasst:
von

Verfasst: 10.04.2010, 08:55
von kostaki
Nein. Die Sitemap muss sitemap.xml heißen, aber wie die robots.txt da rein kommt keine Ahnung.

Verfasst: 10.04.2010, 08:59
von Schneehenry
Die Sitemap.txt habe ich mittlerweile gelöscht, da ich ja eine sitemap.xml habe.

Verfasst:
von
Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Re: Robots.txt und sitemap.txt im Index

Verfasst: 10.04.2010, 09:39
von Mork vom Ork
Schneehenry hat geschrieben:Musste feststellen, dass meine robots.txt sowie eine sitemap.txt in der Ergebnislsite auftauchen, wenn ich eine site: Abfrage bei google mache.
Du hast offenbar nicht nur einen Fehler in deiner .htaccess.

Verfasst: 10.04.2010, 09:41
von Schneehenry
Ob das andere nun ein Fehler ist, weiß ich ja nicht.

Verfasst: 10.04.2010, 09:45
von Mork vom Ork
Schneehenry hat geschrieben:Ob das andere nun ein Fehler ist, weiß ich ja nicht.
Wenn's nicht tut, was es soll, ist es zumindest falsch. Was hast du denn in deiner .htaccess noch drin stehen?

Verfasst: 10.04.2010, 09:48
von Schneehenry

Code: Alles auswählen

RewriteEngine ON
#www erzwingen
RewriteCond %{HTTP_HOST} !^www\.domain\.de$
RewriteRule ^(.*)$ http://www.domain.de/$1 [L,R=301]
#suchmaschinenfreundliche URLs
RewriteRule start$ /index.html
RewriteRule wochenbett$ /html/wochenbett.html
RewriteRule geburt$ /html/geburt.html
RewriteRule schwangerschaft$ /html/schwangerschaft.html
RewriteRule kurse$ /html/kurse.html
RewriteRule angebot$ /html/angebot.html
RewriteRule impressum$ /html/impressum.html
RewriteRule ueber_mich$ /html/ueber_mich.html
RewriteRule kontakt$ /html/kontakt.php
RewriteRule info$ /html/info.html
#Favicon
AddType image/x-icon .ico
#benutzerdefinierte Fehlerdokumente
ErrorDocument 401 /info
ErrorDocument 401 /info
ErrorDocument 403 /info
ErrorDocument 404 /info
ErrorDocument 500 /info
Die Url ist natürlich nur exemplarisch ersetzt. Da steht sonst natürlich die richtige URL.

Verfasst: 10.04.2010, 10:59
von Mork vom Ork
Gut, daran kann es schonmal nicht liegen. Bleibt eigentlich nur die Möglichkeit, dass du die robots.txt irgendwo erwähnt hast – das ist nicht nötig, der Pfad ist festgelegt, Bots finden sie von alleine. Wird irgendwo auf die robots.txt verwiesen, kann das dazu führen, dass sie als normale Seite indiziert wird.

Das Malör sollte sich mit einem Disallow: /robots.txt in der robots.txt ausbügeln lassen, du solltest aber trotzdem prüfen, wo die robots.txt erwähnt wurde, und die Nennung entfernen.
#suchmaschinenfreundliche URLs
RewriteRule start$ /index.html
Die Startseite start zu nennen, hat nichts mit suchmaschinenfreundlich zu tun. Ein Angebot beginnt immer im Wurzelverzeichnis /, belasse es dabei, anstatt einen Sonderweg zu fahren.
(Auf die Inhaltsverzeichnisse index.xy wird übrigens nie verwiesen, die Existenz solcher Dateien ist eine serverinterne technische Notwendigkeit, nach außen ist die dazugehörige URL der Schrägstrich am Ende des Pfades.)
RewriteRule wochenbett$ /html/wochenbett.html
RewriteRule geburt$ /html/geburt.html
RewriteRule schwangerschaft$ /html/schwangerschaft.html
RewriteRule kurse$ /html/kurse.html
RewriteRule angebot$ /html/angebot.html
RewriteRule impressum$ /html/impressum.html
RewriteRule ueber_mich$ /html/ueber_mich.html
RewriteRule kontakt$ /html/kontakt.php
RewriteRule info$ /html/info.html
Was deine normalen Seiten angeht: Wie schon angedeutet, sehe ich keinen Vorteil darin, die Dateien in einem Verzeichnis html/ zu lagern, erst recht nicht, wenn man das Verzeichnis gar nicht haben will. Du machst dir damit nur unnütze Arbeit.

Grundsätzlich und insbesondere bei deiner bestehenden Konstellation rate ich, Seiten in eigene Verzeichnisse zu legen. Du verschiebst also /html/angebot.html nach /angebot/index.html, der Aufruf erfolgt über /angebot/ (nicht /angebot/index.html, das ist unnötig), alle anderen Seiten analog.

Grundsätzlich rate ich dies, weil sich damit eine bestehende Struktur bei Bedarf ohne Änderungen um Unterseiten erweitern lässt. /angebot/ ließe sich zum Beispiel um /angebot/ostern/ erweitern – die Osterangebote sind damit logisch unterhalb des allgemeinen Angebots angeordnet.
Bei /angebot.html wäre die Erweiterung nicht so nahtlos einzufügen, die Osterangebote müssten parallel zu den Angeboten laufen oder es müsste ein neues Verzeichnis angelegt und der alte Pfad umgeleitet werden.

Zweitens lassen sich Dateien, die nur zu einer Seite gehören, Grafiken etwa, unterhalb dieser Seite speichern. billigbillig.jpg würde also unter /angebot/billigbillig.jpg lagern und ist damit eindeutig seinem Verwendungszweck zugeordnet, anstatt irgendwo in einem Sammelsurium rumzufliegen.

Deine bestehende Konstellation ist obendrein für diesen Weg prädestiniert, denn du nutzt ja bereits verzeichnisartige Pfade. Die minimale Korrektur von /angebot zu /angebot/ erledigt der Apache automatisch, du bräuchtest eigentlich nichts machen, außer einmalig die Dateien zu verschieben (nichtsdestotrotz solltest du die Verweise in deinen Seiten korrigieren).

Deine leider indizierten html-URLs wirst du los, indem du Weiterleitungen anlegst:

Redirect permanent /html/index.html /
Redirect permanent /html/wochenbett.html /wochenbett/
Redirect permanent /html/geburt.html /geburt/
Redirect permanent /html/schwangerschaft.html /schwangerschaft/
Redirect permanent /html/kurse.html /kurse/
Redirect permanent /html/angebot.html /angebot/
Redirect permanent /html/impressum.html /impressum/
Redirect permanent /html/ueber_mich.html /ueber_mich/
Redirect permanent /html/kontakt.php /kontakt/
Redirect permanent /html/info.html /info/

Eventuell findest du auch noch eine bessere Struktur, die Kontakseite und das Impressum ließen sich beispielsweise unterhalb von /ueber_mich/ ablegen als /ueber_mich/kontakt/ und /ueber_mich/impressum/

Die RewriteRule-Zeilen kannst du ersatzlos löschen (natürlich mit Ausnahme jener, die für die www-Domain zuständig ist).
#benutzerdefinierte Fehlerdokumente
ErrorDocument 401 /info
ErrorDocument 401 /info
ErrorDocument 403 /info
ErrorDocument 404 /info
ErrorDocument 500 /info
In den ErrorDocument-Zeilen solltest du nach Möglichkeit den tatsächlichen Pfad angeben; ein Umweg bringt in der Regel nichts, weil der Pfad eh serverintern bleibt und nicht nach außen gelangt.
Die Sitemap.txt habe ich mittlerweile gelöscht, da ich ja eine sitemap.xml habe.
Falls das knappe Dutzend Seiten, das in deiner .htaccess aufgeführt ist, alles sein sollte, brauchst du keine Sitemap. Suchmaschinen haben vielleicht Schwierigkeiten, tausende oder zigtausende Seiten unterhalb einer Domain zeitnah zu indizieren, aber nicht eine Handvoll. Du machst dir auch hier Arbeit, die vollkommen unnötig ist.

Verfasst: 10.04.2010, 11:14
von Schneehenry
Das sind ja viele Infos auf einmal.

Also die Unterseiten aus dem Ordner html (da sind sie alle) raus, und jeweils einen Ordner mit einer index.html
Demnach müsste die htaccess Zeile dann so aussehen:

Code: Alles auswählen

RewriteRule wochenbett$ /wochenbett/index.html  
bzw.

Code: Alles auswählen

RewriteRule wochenbett$ /wochenbett/

da der Apache automatisch die Index nimmt.

Die Errorseite dann so: ErrorDocument 401 /info.html

Die Links zu start habe ich nun zu / gemacht. Heisst die gehen einfach zu root.
Damit brauch ich die htaccess Zeile dann auch nicht mehr.

Ist das soweit korrekt?

Verfasst: 10.04.2010, 11:36
von Schneehenry
Dann habe ich aber hinten immer diese unschönen / am Ende der URL.

Teste das gerade mal. Das heisst ja dann, ich brauche die ganzen RewriteRules nicht mehr, da er bei einem Link /wochenbett/ automatisch das Verzeichnis und die index darin aufruft?

Oder aber, ich mache Links mit /wochenbett (ohne abschliessenden /)
und habe RewriteRules die so aussehen:
ReWriteRule wochenbett$ /wochenbett/

Habe ich das richtig verstanden?

Verfasst: 10.04.2010, 14:58
von Mork vom Ork
Schneehenry hat geschrieben:Dann habe ich aber hinten immer diese unschönen / am Ende der URL.
Ja, aber was ist daran unschön?
Das heisst ja dann, ich brauche die ganzen RewriteRules nicht mehr, da er bei einem Link /wochenbett/ automatisch das Verzeichnis und die index darin aufruft?
Richtig, den ganzen Aufstand kannst du über Bord kippen.
Oder aber, ich mache Links mit /wochenbett (ohne abschliessenden /)
und habe RewriteRules die so aussehen:
ReWriteRule wochenbett$ /wochenbett/
Da sehe ich allerdings nicht so ganz den Vorteil gegenüber normalen Verzeichnispfaden, also URLs mit Schrägstrich am Ende. Du hast mehr Aufwand und keinen Nutzen.

Verfasst: 10.04.2010, 15:36
von Schneehenry
Gut. Dann werde ich das mal so versuchen und realisieren.

Vielen Dank für die Hinweise und Tipps.

Re: Robots.txt und sitemap.txt im Index

Verfasst: 14.04.2010, 16:12
von luzie
Schneehenry hat geschrieben:Musste feststellen, dass meine robots.txt sowie eine sitemap.txt in der Ergebnislsite auftauchen, wenn ich eine site: Abfrage bei google mache. Ist das korrekt?
Nee, das ist nicht korrekt - und kommt vermutliich weil du (bzw. dein system) diese Dateien irgenwo verlinkt habt. Finde und entferne die Links.

(robots.txt und sitemap in der robots.txt sperren zu wollen, ist natürlich unsinnig)

Verfasst: 14.04.2010, 19:20
von Schneehenry
Die waren natürlich nirgendwo verlinkt. Ausser die Info im head Bereich.

Verfasst: 14.04.2010, 21:41
von heino
Welche Info?