Seite 1 von 1

PR0 laut sistrix? Vorher PR6. Was hat google da nur gemacht?

Verfasst: 16.06.2009, 11:14
von DaniP1976
Hallo!

Ich hatte euch doch von dem Problem erzählt, daß google in seinen Index meine https:// Startseite statt der http:// hergenommen hat. Das ganze ist letzte Woche passiert. Zeitgleich bin ich in den Serps nicht mehr zu finden.

Und noch mehr: Laut Sistrix, da habe ich nen Account, erhalte ich nach Login, daß meine Seite seit dem Tag auch noch PR0 hat... :-(

Ich gehe davon aus, daß auch Sistrix die https:// zu dieser PR Bewertung hergenommen hat. Die hat ja in der Tat PR 0. Meine "echte" Start, also ohne den https:// Aufruf hat nach wie vor PR6.

Ich habe mittlerweile alles nötige getan, damit google die https:// nicht mehr spidern darf. Es ist eine sep. robots.txt extra für die https:// eingerichtet, und der interne Link zu dieser https:// Seite ist entfernt.

Nur passiert ist noch nichts... nach wie vor ist die https:// indexiert.

Wie bringe ich google nun dazu, mitzubekommen, daß es die https:// wieder rausnimmt? Es existiert faktisch kein Link mehr zu der https:// - wird also google jemals wieder von alleine da gucken gehen? Sonst können die doch gar nicht merken, daß es ne neue robots.txt für die https:// gibt oder?

Was kann ich noch tun?
- soll ich google anschreiben über die WMT, doch das dauert doch sicher Wochen bis was passiert, oder?
- soll ich einen Link setzen nach der https:// Startseite, damit google da vielleicht nochmal gucken geht?

Das google Cache der https:// ist vom 11.6. und das der normalen http:// vom 15.6. Kann man sehen, wann die neue Robots.txt zuletzt gefunden wurde? Bei den WMT kann ich nur die normale robots.txt mit Zeit einsehen, die findet er auch brav alle paar Stunden.

LG Dani

Verfasst:
von

Verfasst: 16.06.2009, 11:21
von JohnBi
Das kannst in den Logfiles erkennen, da steht ganz genau wann der Googlebot das letztemal auf die robots.txt zugegriffen hat.

Bei Google dauern eben Änderungen manchmal etwas länger, da Google nicht nur dein Datencenter hat, sondern viele, also einfach Abwarten und Tee trinken, wenn du alles nötige gemacht hast damit Google die Finger von der https-Version lässt, wird diese von ganz alleine verschwinden, aber das braucht eben Zeit.

Verfasst: 16.06.2009, 17:27
von DaniP1976
Ich habe alle logfiles nun gecheckt. Die robots.txt wurde zwar besucht vom googlebot aber die robotsdiwallow.txt für die https:// leider nicht. :(

Seltsamerweise steht nun im Cache der https:// Seite 12.6. - heute morgen stand da 11.6. Was hat das zu bedeuten?

Sieht wohl nicht so aus, als ob google alleine die sep. robots.txt entdeckt :-(
Was tue ich dann? Doch einen Link nach https:// Startseite setzen damit google den verfolgt und die neue robots da mitbekommt?

Oder gleich google anschreiben?

LG Dani

Verfasst: 16.06.2009, 17:34
von JohnBi
Google anschreiben kannste knicken, du kannst im Google Webmaster Forum dein Problem schildern in der Hoffnung das einer von den Google Leuten dort sich dein Problem annehmen.

Sonst bleibt dir nur Abwarten und Tee trinken, du musst Google Zeit geben die Änderungen zu erfassen und diese zu befolgen.

Verfasst: 16.06.2009, 17:42
von DaniP1976
Denst du, daß ein Link auf diese "falsche" Seite Sinn macht, oder sogar wieder der alte interne Link, den ich ja ausversehen hatte?

Wenn ich google über die WMT anschreibe, wie lange dauert denn sowas?

LG Dani

Verfasst: 16.06.2009, 18:18
von JohnBi
Was soll der Link bringen? Nichts, Google kennt die https Version und weiss das dort ne robots.txt hinterlegt sein kann und wird beim nächsten Besuch diese robots.txt auslesen und dann danach handeln.

Das Anschreiben über WMT bringt meiner Meinung nach nichts, weil es nicht für solche Fälle gedacht ist, dein Problem gehört hierrein ...

https://groups.google.com/group/Google_ ... -de/topics

Verfasst: 16.06.2009, 18:24
von DaniP1976
Danke für die Tipps! Woher weiss google das hinter der https:// version ne robots.txt hinterlegt ist? Damals war ja nur die robots.txt hinter der normeln http// Startseite hinterlegt! ich frage mich ob google die https:// variante noch mal besucht, einfach so ohne Link dahin, es besteht def. kein BL zur https:// Version!

Gucke mir gleich mal deinen Link an!

LG Dani

Verfasst: 16.06.2009, 18:32
von JohnBi
Weil Google immer nach einer robots.txt schaut egal ob http oder https oder was auch immer.

Jo, weil eben kein Link mehr auf diese Version verweist dauert es eben länger bis Google dort nochmal vorbeischaut, aber Google wird nochmal vorbeischauen, weil Google merkt sich jeden Link und jede Seite die Google je gefunden hat.

Verfasst: 17.06.2009, 01:36
von t-rex
Hi,

@Dani1976: So wie ich das verstehe, zeigen die http und die https auf das gleiche Verzeichnis!?

JohnBi hat es schon gesagt, Google liest automatisch die robots.txt. Das tun übrigens alle (guten) Bots, da es standard ist.

Bei diesem Standard ist es wichtig zu wissen, dass es pro Domain und/oder Subdomain immer nur eine robots.txt gibt. Diese robots.txt liegt im Rootverzeichnis. Also http(s)://www.domain.tld/robots.txt.

Andere Stellen, Andere Namen für die robots.txt sind Kappes und werden nicht berücksichtigt.

Um Deine 2 Auftritt (http und https) sauber per robots.txt zu trennen, musst Du etwas einrichten, dass die Anfrage nach den 2 verschiedenen robots.txt auch wirklich getrennt behandelt werden.

Denkbar wäre eine Weiche in der .htaccess einzurichten. Dabei wird jeder Zugriff auf die robots.txt abgefangen und je nach Protokoll (http oder https) dann auf eine dedizierte robots.txt weiter geleitet. Ich kann dir den erforderlichen Code leider nicht so aus dem Stehgreif liefern - dafür gibt es andere Cracks, die das besser können.

Eine andere Variante wäre, Du erstellst ein kleines Script PHP oder Perl, das die Ausgabe der robots.txt steuert. Und wann immer ein Zugriff auf die robots.txt erfolgt, wird dann dieses Script abgearbeitet. Das kannst/musst Du ebenfalls über .htaccess einrichten.

Du musst also den Zugriff der robots.txt abfangen, und anhand Protokoll/Proto/Scheme ausgeben.

http//domain.tld/robots.txt -> robots-http.txt
https//domain.tld/robots.txt -> robots-https.txt

Wenn das dann funktioniert, dann kannst Du soviel ich weiss, die robots.txt der https Version bei den Webmastertools neu einlesen lassen. Oder, Du musst Dich gedulden, und die Zeit wird es erledigen.

Es ist aber sicherlich keine Sache von 5 Miuten oder von 1 Tag. Es kann auch wochen oder Monate dauern, bis der Bot geschnallt hat, welche Version nun gelistet werden soll.

Hoffe, ich konnte es verständlich rüberbringen und es hilft Dir weiter.

Sonnige Grüsse
HaPe

Verfasst: 17.06.2009, 05:05
von TeichFrosch

Verfasst: 17.06.2009, 05:46
von dirk30
Url entfernen kannst über die Google Webmaster Tools machen im Google Account.

Verfasst: 17.06.2009, 09:33
von DaniP1976
Hallo! Das mit den robots.txt habe ich schon gemacht. Ich überlege nun die https:// mit Hilfe der WMT zu entfernen. habe nur Angst daß die gleich den rest auch mit löschen. Was denkt ihr?
LG dani