Liest der Bot die gesamte 404 Seite oder haut er sofort ab,

Beitrag von **IT-Knecht** » 19.02.2013, 15:35

Sehe ich auch so.
Für die Landwirte dieser Welt noch mal ganz langsam:

Client (Browser XY) -> Webserver (Apache): Gib mir diese Seite
Webserver -> AppServer (PHP): Gib mir diese Seite
AppServer -> Webserver: Status 404 - Ätsch, diese Seite gibt es nicht
Webserver -> .htaccess: und was nun?
.htaccess -> Webserver: Gib ihm dazu diese Fehlerseite
Webserver -> AppServer (oder Dateisystem): Dann gib mir halt diese Fehlerseite
AppServer -> WebServer: "Fehlerseite"
Webserver -> Client: Status 404 + "Fehlerseite"

Was der Googlebot damit unter welchen Umständen macht - wer kann das schon wirklich wissen.

Für Wordpress gibt es Plugins, die in der Fehlerseite gleich ähnliche Seiten vorschlagen.
Man kann die Fehlerseite also freundlich und individuell gestalten.
Habe ich noch nicht gebraucht, scheint mir aber eine gute Idee zu sein.

- Martin

von **Anzeige von ABAKUS** »

Hochwertiger Linkaufbau bei ABAKUS:

Google-konformer Linkaufbau
nachhaltiges Ranking
Linkbuilding Angebote zu fairen Preisen
internationale Backlinks

Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Beitrag von **vidi** » 19.02.2013, 15:47

Fakt ist also, man kann es nicht messen ob der Google Bot die Seite bis zum Ende gelesen hat, richtig?

Beitrag von **Melegrian** » 19.02.2013, 16:20

Würde jetzt sagen, richtig. Oder Du lenkst auf eine statische HTML-Seite um und gibst die mit einen 304 aus, dann wird nichts außer der Header vom Server übertragen. So einfach wird das nur nicht gehen.

Und diese Variante kennst Du bereits?
Weiterleitungen statt 404 Fehler

von **Anzeige von ABAKUS** »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:

einzigartige Texte
suchmaschinenoptimierte Inhalte
eine sinnvolle Content-Strategie
Beratung und Umsetzung

Jetzt anfragen: 0511 / 300325-0

Beitrag von **webbastler** » 19.02.2013, 17:33

Fans 404,
warum macht Ihr es denn so viel Wind am Thema vorbei.

Es ist doch so einfach über htaccess eine Art Weiterleitungs- Befehl auf eine eigene 404 -Startseite zu geben.

Das ist dann auch kein doppelter Text, weil diese Seite nicht hinter der Startseite, sondern separat daneben hängt.

Zumal man auch vorsorglich den Text leicht ändern und nur die Linkstruktur für den Besucher belassen kann.

Letztendlich ist doch nur das Resultat wichtig.

Ich werfe jetzt endgültig das Handtuch!

Beitrag von **Beloe007** » 19.02.2013, 21:28

Wenn du bei 1.500 Seiten mit 800.000 Seitenaufrufen über 10% 404-Anfragen hattest, machst du was falsch und willst anderen erklären wie man dieses gebastelte Konstrukt mit noch mehr basteln korrigiert.

webbastler hat geschrieben:Auf Deutsch bedeutet das, das man die eigne 404 mit einer dünnen Kopie der eigenen Startseite besetzt, dann merkt nämlich kein verirrter Kunde den Irrtum und alles läuft wie gewollt in die richtige Richtung.

Klar, der Kunde merkt den Irrtum nicht

Dem Kunden ist ein Hinweis "Leider nicht mehr im Sortiment ähnliche Artikel oder Neuere gibt es da und dort" lieber als ein "Gehen Sie zurück auf Los und ziehen Sie sich nicht die gewünschte Seite rein". Diese Besucher gehen eher zurück auf Google und klicken den Nächsten an

Noch spannender aber ist: Du hast die Intention der Frage immer noch nicht verstanden.

@vidi
Vielleicht kannst du es prüfen, indem du z.B. einen Link oder Bild ans Ende der Seite packst dessen Seite/Bild sonst nirgendwo verlinkt ist, wird die unbekannte Seite oder das Bild vom Bot gecrawlt wird der unbekannte Inhalt zumindest mal gelesen+weiterverfolgt, bringt dich aber auch nicht wirklich weiter. Setze vernünftige Cache-Header, dann ist es auch fast egal wie groß der Inhalt ist.

Beitrag von **vidi** » 20.02.2013, 10:08

ich habs "befürchtet".

Danke an alle, die bei der Diskussion konstruktiv mitgemacht haben!

Beitrag von **webbastler** » 20.02.2013, 10:47

Hallo Beloe007
klar mache ich vieles falsch, habe vor 12 Jahren mit selfhtml angefangen und entwickelte mich langsam bis zum HTM5 bzw.6.

Schreibe den gesamten Quelltext aller Seiten selber, aber das ist doch vollkommen nebensächlich.

Die über ca. 800.000 Anfragen beziehen sich übrigens auf die Startseite.

Wichtig ist doch letztendlich nur, ob das Ranking und der Kunde leidet.

Beides ist nicht der Fall!

Durch den htaccess Befehl erscheint auf der 404 Fehlerseite immer meine index- Startseitenkopie,
der Kunde ist nicht beeinträchtigt da er keine Fehlermeldung bemerkt, und Google ist es offensichtlich egal, denn es wertet nicht ab.

Was wollt Ihr denn erreichen, eine praktikable Lösung, oder besser wissend im Fantasiebereich Eure fragwürdigen Theorien diskutieren

Praktikabilität ist die einzige business Lösung.

Adjö

Beitrag von **vidi** » 20.02.2013, 11:04

oder besser wissend im Fantasiebereich Eure fragwürdigen Theorien diskutieren

Ich frage mich immer noch warum Du überhaupt noch mitdiskutierst, wenn alles was wir schreiben fragwürdig und besserwissend ist? Ist nicht grad das, was Du hier abziehst besserwissend? Prahlst hier mit Erfolgen ohne einmal eine Domain genannt zu haben. Sagst, dass alles was Du machst viel besser ist, als das was hier diskutiert wird....usw.

Hier hat Dich bisher niemand angegriffen, warum beleidigst Du dann andere?
Immer erst auf die eigenen Finger schauen, bevor man andere kritisiert!

Beitrag von **webbastler** » 20.02.2013, 11:57

Hallo Vidi,
ich prahle nicht mit Erfolgen ich bin ein fleißiger Mensch und relativ erfolgreich.

Leider wollt Ihr von einem alten Hasen keinen Rat annehmen.

Ich will meine Seiten nicht preisgeben, weil ich in Vergangenheit von mehreren Denunzianten belästigt wurde.

Google nimmt nämlich bei jeder Denunziation zuerst einmal rein vorsorglich die Seite aus den Inden und man dann das Erklärungstheater am Halse.

Problem sind die vielen dummen Neider!

Beitrag von **Melegrian** » 20.02.2013, 11:59

vidi hat geschrieben:Ich frage mich immer noch warum Du überhaupt noch mitdiskutierst,

Wenn ich einige Antworten von webbastler in einigen anderen Threads lese, so gehen die auch kaum auf die eigentliche Fragestellung ein. Nicht darauf anspringen, scheint ein Forentroll zu sein.

Beitrag von **webbastler** » 20.02.2013, 12:57

Richtig Melegrian,

die fragen um Rat, und wollen alles im voraus schon besser wissen.

Praktikables Wissen und Erfahrungen interessiert nicht.

Wirklich Schade, der echte Ratsuchende wird nur mit halbintelligenten Theorien aus dem Googlewebmasterclub verunsichert.

Echte Ratschläge von alten erfahrenen Hasen sind unerwünscht.

Gut, daß ich als Privatier mit weit über 70 auf die paar Euro Rente nicht angewiesen bin, ansonsten müsste ich bei diesen selbsternannten Webmastern echte Befürchtungen ob meiner Einkünfte haben.

Beitrag von **vidi** » 20.02.2013, 13:04

Könnten wir mit dem OT aufhören bitte, sonst schließt der Admin diesen Thread noch.

Beitrag von **Melegrian** » 20.02.2013, 14:56

Was möchtest Du noch wissen?
Wenn ich das bisherige zusammenfasse, würde es in etwa ergeben:

Der Bot liest entweder keine Fehlerseiten oder er liest sie doch, dann aber ohne diese zu indizieren. Wenn es sich bei der Fehlerseite um eine PHP-Seite handelt, wird die vor Auslieferung geparst und der Response Header mit Statuscode und der Response Body an den Crawler übertragen. Der Crawler wird je nach Einstellungen bei einem 404 abbrechen und die nächste URL aufrufen oder er wird nicht abbrechen und die Seite doch lesen.

Was ein einfacher Crawler beim Request anfordert, wird aber nur die eigentliche URL/Datei sein und nicht die in der Datei referenzierten Medien, da deren Anforderung weitere Anfragen beim Server voraus setzen würde. Anders bei Browsern, die starten vier oder mehr Request gleichzeitig, um möglichst alles schnell abzuholen, zu verarbeiten und auszugeben, dabei wird dann vieles gecacht, damit nicht bei jedem Aufruf alles neu angefordert werden muss. Sollte aus den Logs sichtbar werden, dass ein Bot nur /seite.html abruft, ein Browser hingegen:

/seite.html
/image-1.jpg
/image-2.jpg

Habe vorsichtshalber noch einmal in den Logs nachgeschaut, bevor ich Müll schreibe, in den kontrollierten sah es zumindest so aus.

Beitrag von **elmex** » 20.02.2013, 19:53

vidi hat geschrieben:Fakt ist also, man kann es nicht messen ob der Google Bot die Seite bis zum Ende gelesen hat, richtig?

Doch natürlich kann man das messen. Man konfiguriert seinen Webserver einfach so, dass er die menge der gesendeten Daten mit in das access_log schreibt (was meist eh schon so konfiguriert ist). Hier eine Zeile aus einem typischen Apache-Log:

123.156.15.121 - - [20/Feb/2013:19:51:01 +0100] "GET /istnixda.htm HTTP/1.1" 404 210

die letzte Zahl, die 210 ist die Menge der übertragenen Bytes.

Genauso sieht es eigentlich aus, wenn der googlebot anfragt, bloss halt dann mit einer anderen IP...

Beitrag von **Melegrian** » 20.02.2013, 20:16

Da hörte mein Verständnis gestern gerade auf, denn das ist ja das, was der Server als Response an den Crawler sendet, aber nicht das, was der Bot auch von der empfangenen Response liest.

Und da die Frage sich zum Teil auf eine PHP-Datei bezog, die den HTTP-Statuscode mit ausgeben soll, muss ja der Server erst einmal die PHP-Datei parsen, anschließend den gesetzten Header und den Body an den Crawler übertragen und der Crawler wird davon entweder nur den Header lesen oder den Header und danach den Rest.

Anders kann ich mir das bislang nicht vorstellen. Es sei denn, der HTTP-Header mit dem Statuscode und der zugehörige Body mit der Nachricht werden in einzelnen Datenpaketen hintereinander übertragen oder so und der Crawler bricht zwischendurch ab und empfängt den Rest nicht mehr. Trotzdem müsste der Server meiner Meinung nach erst einmal die ganze Datei parsen.

Vom Prinzip könnte man diese Übertragung der Response vom Server zum Crawler mit einem Download vergleichen, der nach dem Empfang des Headers abgebrochen wird. Doch verhält es sich so, dass der Server die Antwort (geparste Fehlerseite) zur Übertragung bereitstellt und der Crawler nach Empfang des Headers die Verbindung kappt. Oder wird der nicht alle Daten empfangen, doch davon je nach Einstellung nur den Header lesen?