Seite 1 von 1

Wie verhindere ich das ein Spider https:// nicht spidert?

Verfasst: 24.02.2006, 12:53
von marky
Hallo,

mir ist aufgefallen, dass Google bei einem Projekt die Domin über https gespidert hat und nur wenig über http - die SSL_Domain muss aber im gleichen Root, wie die "normale" Domain bleiben.

Wie kann ich es jetzt verhindert, dass die Robots nicht die https, sondern ausschliesslich die http domain spidern.

Und wie bekomme in die Seiten korrekt in den Index?

Verfasst:
von

Verfasst: 24.02.2006, 14:12
von thetrasher
Google fordert getrennte robots.txt-Dateien: https://www.google.de/webmasters/remove.html

"https://IhrServer.de/robots.txt" und "https://IhrServer.de/robots.txt" müssen sich unterscheiden.

In Deinem Spezialfall muss mod_rewrite eingesetzt werden (Umleitung auf von robots.txt auf robots-https.txt anhand von SERVER_PORT).

Wie verhindere ich das ein Spider https:// nicht spidert?

Verfasst: 24.02.2006, 14:43
von marky
Hallo,

super danke genau das habe ich gesucht, hat da jemand zufällig eine rewritezeile für mich, danke und helau :-)

Wie verhindere ich das ein Spider https:// nicht spidert?

Verfasst: 24.02.2006, 14:57
von marky
Habs selber gefunden, es gibt die Variable HTTPS und damit es dann so

RewriteCond %{HTTPS} on
RewriteRule ^robots.txt$ robotsll.txt

Danke nochmal und ein schönes Wochenende ...

Wie verhindere ich das ein Spider https:// nicht spidert?

Verfasst: 13.03.2006, 20:36
von Christophe
Danke, das sieht doch nach einer eleganten Lösung aus. Sowas habe ich neulich gesucht. Eine Winzigkeit würde ich noch ergänzen:

Code: Alles auswählen

RewriteCond %{HTTPS} on
RewriteRule ^robots\.txt$ robots-https.txt
Man beachte den Backslash. :)

Verfasst: 29.03.2006, 17:00
von Gastro
Gibt es sonst einen DC Problem wenn die alle http und gleichen aber https Dateien drin (google index) sind??

und was schreibt man in der robots-https.txt rein?
etwa das hier:

User-agent: *
Disallow: /

Gruß
Gastro

Wie verhindere ich das ein Spider https:// nicht spidert?

Verfasst: 01.04.2006, 21:24
von marky
Hallo,

oben ist ein Link zu Google, dort steht genau drin, was man machen muss und die Lösung für mod_write für die robots.txt hast Du ja oben.

Hat bei mir übrigens innerhalb eines Tages funktioniert.

Mit oder ohne Backslash

Verfasst: 10.05.2006, 15:11
von martin10969
@marky

hast Du das backslash verwendet, wie von Christophe hier beschrieben oder den Code original wie in Deinem Beitrag? Bin gerade schwer am testen und mit Backslash hatte es bisher nicht richtig funktioniert. Jetzt versuche ich es mal ohne:

RewriteCond %{HTTPS} on
RewriteRule ^robots.txt$ robots-https.txt

gruß
martin

Verfasst: 22.06.2006, 10:56
von redcan
bei mir gehts so, aber vorsicht beim testen, erst mal mit test.txt statt der robots.txt!

Code: Alles auswählen

RewriteCond   %{SERVER_PORT}   ^443$ 
RewriteRule ^robots\.txt$ /robots-https.txt [L,NC]

Verfasst: 15.02.2007, 09:24
von GoSEO
Das gleiche Problem ist auf einen meiner Seiten aufgetreten. Dort werden https-Seiten bei G im Index angezeigt und eben nicht die entsprechenden htpp-Seiten.

Mich würde jetzt mal interessieren, wie denn Euer Erfolg mit den oben genannten Maßnahmen war:
Hat alles geklappt? Wie lang hat es gedauert bis G die http-Seiten im Index hatte? Waren die http-Seiten genauso gut gerankt?

Vielen Dank, GoSEO