Hab mal ne generelle Frage.
Wenn ein Suchmaschinenbot wie z.b. der Googlebot Seite crawlt, welche Faktoren bestimmen ob die dann auch indexiert werden. Hatte Anfang April zwei Tage wo 20.000 Seiten meiner Website gecrawlt wurden (normal so 5000 im Schnitt pro Tag) aber irgendwie nimmt der die trotzdem nicht in den Index auf. Welche Faktoren können dieses Verhalten hervorufen?
Naja das dürfte aber nicht an der Indexierung hindern, da andere Seiten die ähnliche Themen haben auch indexiert werden. Es wird ja auch regelmäßig gecrawlt, der Pagerank ist gut (4) und auch die Onpage Optimierung ist eigentlich ganz gut. Sehe da keinen Grund, bei meinem Wissensstand, dass die gecrawlten Seiten nicht indexiert werden. Vielleicht hat ja jemand noch nen Tip.
EDIT:
@MrTunes
Ja die Seite ansich ist indexiert, aber Google indexiert die Unterseiten einfach nicht mehr, obwohl die gecrawlt werden und gut optimiert sind.
Also bei Google hab ich 1384 indexierte Seiten. Doch crawlt er jeden Tag im Schnitt 5000. Letztes Jahr hat er die alle immer indexiert, so dass ich zwischendurch bei über 30.000 indexierten Seiten war. Doch seit Anfang des Jahes ging das zurück und er indexiert die gecrawlten Seiten nicht mehr. Selbst die Links die auf der Startseite zu einer Unterseite gehen.
Mir ist halt nicht klar was Google daran hindert die gecrawlten Seiten normal zu indexieren wie vorher. Kann ja sein, dass es da irgendwelche Kriterien gibt
Also viele Seiten sind nahezu identisch. Gleicher titel, gleiche Description, fast gleicher Content. Nur ein paar Zahlen durcheinander gewürfelt. Sowas wird nicht indiziert, wozu auch?
Die Titel bei den Vereinsprofilen sind alle unterschiedlich genauso wie die Description. Hatte ich extra drauf geachtet. Auch die Webadresse hab ich statisch gemacht um das Problem mit IDs etc. aus dem Weg zu gehen. Naja beim Content sind halt nur die Masken gleich.
Geht mir auch nicht um Tabellen oder Ergebnisseiten wo es mir gar nicht wichtig ist, dass die indexiert werden. Aber die Vereinsprofile sind ja nun doch schon verschieden was Inhalt angeht, Bilder, Description, Titel.
Aber stimmt das wäre ein genereller Punkt an dem ich noch arbeiten könnte.
Du darfst den index:-Wert nicht allzu genau nehmen. Geh lieber von den Besucherzahlen aus. Die sagen Dir eher, wie viel Seiten bei Google wirklich im Index hängen.
Der index:-Wert spinnt total. Bei mir crawlt Google täglich zwischen 30k und 70k Seiten und trotzdem habe ich "nur" 30k Seiten im Index. Der leicht ansteigende organische Traffic zeigt mir dagegen, dass Google mehr und mehr Besucher vermittelt. Also ein gutes Zeichen, dass sich der Index ändert. Kann natürlich auch einfach nur heißen, dass die Positionen besser sind als sonst, aber genau weiß man das eben nie.
Das sind eindeutig zu viele variable Parameter, wo sich inhaltlich eigentlich nichts ändert. Also wenn Du Monat, Jahr oder Sprache der Seite änderst, hast Du viele viele verschiedene Sortierungen, aber keinen neuen Content gewonnen. Daher sollte man hier vielleicht den Crawler aussperren, d.h. Sortierungslinks auf nofollow setzen oder nur per Javascript verfügbar machen etc.
Ja ich gehe da auch mehr nach Google Analytics und das zeigt mir auch, dass die Googleeinsteiger nicht gerade mehr werden.
Das das mit den Paramtern hab ich bei den Vereinsprofilen schon in statisch umgewandelt. Muss ich noch bei den anderen Unterseiten machen.
Das mit den Sortierungslink auf nofollow ist interessant. Muss ich mal gucken oder halt per ajax machen. Doch die Seiten sind mir momentan auch nicht wichtig, dass sie indiziert werden, daher sind diese auch noch nicht optimiert.
Kann es vielleicht daran liegen, dass er zu vielen Unterseiten mehr als 2 Ebenen braucht? Wieviel sind denn da so im Rahmen der Crawler?
Nur weil zu wenig Text ist? Ok das ist mir neu. Ist ein guter Tipp. Müsste ich mal überlegen wie ich das ändern kann, da ich ja nicht sinnlosen Content da reinmachen will.
Nein Menü zählt nicht.
Ist doch logisch das die Seiten gefiltert werden.
Wenn du einen Broschüre hast auf der nur das Firmenlogo und die adresse zu sehen ist, dann ist kein wichtiger Inhalt vorhanden den du nicht schon kennst und somit blätterst du drüber oder nimmst du seite ganz raus.
Genau das macht Google nur eben über Schwellwerte.
Ok muss ich mir mal durch den Kopf gehen lassen. Andererseits waren Ende letzten Jahres gut 20000 solcher Vereinsprofile im Index. Also hat Google in der Hinsicht vielleicht ein paar Werte verändert. Aber gut dann weiss ich ja wo ich ansetzten muss.
anfänglich passiert das schon. Kann ja sein das noch content drauf kommt. Ändert sich dann nix mehr, wird die seite gefiltert bzw. aus dem Index geschmissen.
Du solltest schon Titel, Überschriften, und so mind. 200 Wörter content haben ohne Menüs und Überschriften. dann hast du gar keine probleme und die seite rankt auch noch gut, wenn du Onpage alles gut umgesetzt hast.