Seite 1 von 1

Zeitliche Einschränkung in robots.txt?

Verfasst: 20.05.2009, 12:05
von michaelskw
Hallo,

ich hätte eine Frage zu einer robotos.txt

Wir haben das Problem, dass unsere Suche wegen täglicher Datenbankupdates (mehrere Millionen Produkte) jede Nacht ca. 20 Minuten nicht erreichbar ist.

Im Webmaster Tool haben wir daher ziemlich viele "Nicht erreichbare URLs" - die es aber gibt. Ein Grund hierfür wäre natürlich, dass der Spider diese Seiten versucht hat zu indexieren, als Sie wegen des DB-Updates nicht erreichbar waren.

Kann mit z.B. in der robots.txt eine zeitliche Einschränkung angeben, dass die Seiten z.B. zwischen 3 und 4 Uhr nachts nicht gecrawled werden sollen?

Oder kann man das irgendwie anderes lösen?

Viele Grüße
Michael

Verfasst:
von

Verfasst: 20.05.2009, 12:14
von mgutt
Ich würde Empfehlen das Backup in Abhängigkeit zu den täglichen Impressionen durchzuführen und nicht mit Cronjobs (z.B. 1 Impression = Import von 10 Produkten).

Eine weitere Möglichkeit wäre es den Cronjob beim jeweiligen Reload mit einer CPU-Kontrolle auszustatten. Sofern die CPU nicht Limit X überschreitet darf er weiter machen, ansonsten muss er 60 Sekunden warten. So dauert das Backup zwar länger, aber der Server bleibt erreichbar.

Beides bezieht sich wie du siehst auf Lastverteilung.

Danach hilft nur noch ein besserer/mehr Server.

Verfasst: 20.05.2009, 12:17
von net(t)worker
robots.txt ist da absolut ungeeignet....

evt.l das DB update so durchführen das es die Suche nicht beeinträchtigt... also z.B. erst eine kopie der DB anfertigen, in der kopie das update fahren und wenn dies fertig ist die tabellen umbenennen, so das die Kopie zum livesystem wird... so haste maximal Ausfälle im sekundenbereich...

eine andere, ebenfalls bewährte, methode ist einfach die Fehlermeldungen in den webmastertools zu ignorieren... ihr wisst ja warum es diese Fehler gibt...

Verfasst: 20.05.2009, 12:18
von mgutt
net(t)worker hat geschrieben:eine andere, ebenfalls bewährte, methode ist einfach die Fehlermeldungen in den webmastertools zu ignorieren... ihr wisst ja warum es diese Fehler gibt...
Damit weißt Du aber nicht, welche Fehler aus welchem Grund resultieren. Also wirkliche Fehler sind damit nicht mehr erkennbar.

Verfasst: 20.05.2009, 12:19
von michaelskw
eine andere, ebenfalls bewährte, methode ist einfach die Fehlermeldungen in den webmastertools zu ignorieren...
die frage ist halt nur, ob das auf die bewertung von google einen einfluss hat? Ich kann mir nicht vorstellen, das es Google "egal" ist, wenn tägliche viele Seiten nicht erreichbar sind.

Verfasst: 20.05.2009, 12:25
von mgutt
Google ist es egal, aber Google kann die Seite nicht aufrufen, um sie in den Index zu packen / zu aktualisieren. Faktisch verlierst Du also einen Tag bei der Indexierung (oder mehrere, falls es immer wieder zum gleichen Zeitpunkt zum Ausfall kommt und Google gerade dann wieder einen Versuch gestartet hat).

Was mir auch aufgefallen ist, dass die Crawlinggeschwindigkeit nachlässt, wenn Deine Seite keine gute Antwortzeit hat. Bei vielen Fehlern, dürfte die ja vermutlich schlecht sein. Man riskiert also, dass Google weniger Seiten indexiert, als man es eigentlich gerne hätte.

Es macht also durchaus Sinn die Fehler zu bereinigen, wenn es sich auch nicht auf die SERPs oder ähnliches auswirkt.

Verfasst: 20.05.2009, 12:33
von michaelskw
Google ist es egal
ist es google wirklich egal, wenn eine seite tausende "nicht erreichbar urls" im webmaster tool anzeigt? Zahlt das nicht in die Qualitätsbewertung und damit unter Umständen auch auf das Ranking einer Seite mit ein?

Verfasst: 20.05.2009, 20:47
von oio
ähm ... 20 minuten alles lahmlegen für den db-update?

warum benutzt du nicht zwei datenbanken und switcht einfach zu einem festgelegten zeitpunkt zur jeweils aktualisierten?

Verfasst: 20.05.2009, 23:00
von catcat
Ich will ja nicht unken, aber:
Ihr habt mehrere MILLIONEN Produkte? :o

Verfasst: 20.05.2009, 23:13
von Scubi
Mehrere Millionen Produkte ist bei einer Preissuchmaschine normal :D

Sollte es sich wie ich erahne, um eine solche handeln, dann kannst Du das umgehen, indem du deine Datenbank je nach Affili Partern Stück für Stück erneuerst.

Das muß man nicht in einem Rutsch machen, sondern kann das ganze auch abgleichen lassen. So werden nur erneuerte Artikel rein oder raus genommen. Das spart erheblich Zeit und man hat keine Probs mit Google.

Allerdings braucht man für den Abgleich einen starken Server.

Gruß Scubi

Verfasst: 21.05.2009, 12:02
von mgutt
So oder so dürfte es sich um eine mangelhafte technische Umsetzung handeln. Es macht auch aus finanzieller Sicht überhaupt keinen Sinn seinen Server offline zu nehmen. Es gibt ja schließlich auch nachts Besucher, wenn auch weniger.