ich arbeite derzeit an einem grossen Portalprojekt, das sehr viele Content-Seiten hat und bei allen relevanten Keywords auf Platz 1 liegt.
Nur war das ganze ein riesiger Sumpf, der völlig ohne Kontrolle gewachsen ist und jetzt wurde das alles mal unter einen Hut gebracht und die Inhalte und Links sauber aufgebaut.
Die Frage ist jetzt, wie gehe ich am besten am Tag X vor, ich will natürlich, dass die alten Seiten so schnell als möglich rauskommen und die neuen rein (sollte kein Problem sein). Ich habe gehört und auch schon selber die Erfahrung gemacht, dass 404-Umleitungen dazu führen, dass die alten Seiten nicht rausfliegen, ohne ist es aber auch ätzend, wenn kein Link mehr stimmt.
ich meinte, wenn jemand in Google sucht und eine Seite klickt, die es nicht mehr gibt, dann landet er auf 404 (alle Links sind nachher neu) - sollte ich keine 404 Umleitung machen, dann gekommen alle Besucher aus google nur die 404-Apache-Seite und gehen wieder, das will ich nicht. Ich will aber auch nicht, dass Google durch die 404-Umleitung die alten Seiten nicht rausnimmt.
Die Frage ist also, wie kommen Seiten, die nicht mehr existieren am schnellsten aus dem Index?
das passiert ja von alleine, wenn ich die neue Seite online stelle - die Frage ist, ob eine 404er-Umleitung per htaccess wirklich verhindert, dass die Seiten aus dem Index genommen werden.
In die robots kann ich die Seiten nicht reinschreiben, es sind sicher 20.000 Seiten in einigen 100 Verzeichnissen, wobei ich ein Script machen könnte, was die alten Dirs ausliest und in die Robots-TXT schreibt.
Gibt es denn keine schnellere Methode Google zu sagen, alles raus und neu indexieren?
ok - 410 hatte ich noch gekannt, ist aber genau das richtige.
Die Frage ist nur, wie ich einen 410 anstatt eines 404 zurückgebe, ich würde ein Script schreiben, was alle alten Seiten in eine Datei schreibt. Bei Aufruf einer Seite, die es nicht gibt, würde ich dann die Datei per Script durchsuchen und ggf. 410 oder 404 ausgeben. Jetzt kann ja einfach die 404 Umleitung auf das Script machen, nur wie kann ich dann die unterschiedlichen Header ausgeben bzw. wo muss die Umleitung ansetzen, damit ich die Header noch frei definieren kann?
da kommen wir der Sache ja schon näher, das heisst aber auch, dass ich 10000 Einträge in die htaccess machen muss, die dann bei jeden Klick verarbeitet wird, das geht nicht wirklich. Daher wollte ich das per "persönlicher Fehlerseite" automatisch machen und auch nur dann, wenn der Fall wirklich eintrifft.
Oder noch besser, ich mache das on the fly, dh. ich baue die Datenbank über die 404-Seite direkt auf, dh. das ganze wächst mit der Zeit von selber und das Script macht automatisch die Einträge in der htaccess und in meiner Datei des alten Webs checke ich das ein "echter" 404 ist oder ein 410 und der 410 wird automatisch in die htaccess eingetragen.
ja ich mache das alles schon sehr lange und denke manchmal eher anspruchsvoll, allerdings würde ich das mit persistenten Hashes machen, daher ist die Menge der Daten kein Problem.
Der Link hat jetzt aber geholfen, ich habe einfach die Verzeichnisse der ersten Ebene per
RedirectMatch gone /relaunch/.*
eingeschlossen, sind nur ca. 50 - das ist jetzt perfect. Und ich leite zudem 404 und 410 auf ein Script, dass die Seitenprotokoliert, damit man sehen, wo viele Aufrufe sind, wo man dann manuell eine 301-Umleitung eintragen kann.
Das war doch mal wieder eine erfrischende Diskussion.
PS: Ich setze die automatische Lösung tortzdem mal um, irgendwie gefällt die mir