Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Liest der Bot die gesamte 404 Seite oder haut er sofort ab,

IT-Knecht
PostRank 8
PostRank 8
Beiträge: 772
Registriert: 13.02.2004, 09:04
Wohnort: ~ Düsseldorf

Beitrag von IT-Knecht » 19.02.2013, 15:35

Sehe ich auch so.
Für die Landwirte dieser Welt noch mal ganz langsam: ;-)

Client (Browser XY) -> Webserver (Apache): Gib mir diese Seite
Webserver -> AppServer (PHP): Gib mir diese Seite
AppServer -> Webserver: Status 404 - Ätsch, diese Seite gibt es nicht
Webserver -> .htaccess: und was nun?
.htaccess -> Webserver: Gib ihm dazu diese Fehlerseite
Webserver -> AppServer (oder Dateisystem): Dann gib mir halt diese Fehlerseite
AppServer -> WebServer: "Fehlerseite"
Webserver -> Client: Status 404 + "Fehlerseite"

Was der Googlebot damit unter welchen Umständen macht - wer kann das schon wirklich wissen.


Für Wordpress gibt es Plugins, die in der Fehlerseite gleich ähnliche Seiten vorschlagen.
Man kann die Fehlerseite also freundlich und individuell gestalten.
Habe ich noch nicht gebraucht, scheint mir aber eine gute Idee zu sein.


- Martin

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

vidi
PostRank 4
PostRank 4
Beiträge: 112
Registriert: 18.07.2011, 16:21

Beitrag von vidi » 19.02.2013, 15:47

Fakt ist also, man kann es nicht messen ob der Google Bot die Seite bis zum Ende gelesen hat, richtig?

Melegrian
PostRank 10
PostRank 10
Beiträge: 3170
Registriert: 30.01.2005, 12:36

Beitrag von Melegrian » 19.02.2013, 16:20

Würde jetzt sagen, richtig. Oder Du lenkst auf eine statische HTML-Seite um und gibst die mit einen 304 aus, dann wird nichts außer der Header vom Server übertragen. So einfach wird das nur nicht gehen.

Und diese Variante kennst Du bereits?
Weiterleitungen statt 404 Fehler

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

webbastler
PostRank 6
PostRank 6
Beiträge: 420
Registriert: 11.01.2013, 11:09
Wohnort: umgezogen nach Hückeswagen

Beitrag von webbastler » 19.02.2013, 17:33

Fans 404,
warum macht Ihr es denn so viel Wind am Thema vorbei.

Es ist doch so einfach über htaccess eine Art Weiterleitungs- Befehl auf eine eigene 404 -Startseite zu geben.

Das ist dann auch kein doppelter Text, weil diese Seite nicht hinter der Startseite, sondern separat daneben hängt.

Zumal man auch vorsorglich den Text leicht ändern und nur die Linkstruktur für den Besucher belassen kann.

Letztendlich ist doch nur das Resultat wichtig.

Ich werfe jetzt endgültig das Handtuch!

Beloe007
PostRank 10
PostRank 10
Beiträge: 2928
Registriert: 05.03.2009, 10:31

Beitrag von Beloe007 » 19.02.2013, 21:28

Wenn du bei 1.500 Seiten mit 800.000 Seitenaufrufen über 10% 404-Anfragen hattest, machst du was falsch und willst anderen erklären wie man dieses gebastelte Konstrukt mit noch mehr basteln korrigiert.
webbastler hat geschrieben:Auf Deutsch bedeutet das, das man die eigne 404 mit einer dünnen Kopie der eigenen Startseite besetzt, dann merkt nämlich kein verirrter Kunde den Irrtum und alles läuft wie gewollt in die richtige Richtung.
Klar, der Kunde merkt den Irrtum nicht :roll: Dem Kunden ist ein Hinweis "Leider nicht mehr im Sortiment ähnliche Artikel oder Neuere gibt es da und dort" lieber als ein "Gehen Sie zurück auf Los und ziehen Sie sich nicht die gewünschte Seite rein". Diese Besucher gehen eher zurück auf Google und klicken den Nächsten an :)

Noch spannender aber ist: Du hast die Intention der Frage immer noch nicht verstanden.

@vidi
Vielleicht kannst du es prüfen, indem du z.B. einen Link oder Bild ans Ende der Seite packst dessen Seite/Bild sonst nirgendwo verlinkt ist, wird die unbekannte Seite oder das Bild vom Bot gecrawlt wird der unbekannte Inhalt zumindest mal gelesen+weiterverfolgt, bringt dich aber auch nicht wirklich weiter. Setze vernünftige Cache-Header, dann ist es auch fast egal wie groß der Inhalt ist.

vidi
PostRank 4
PostRank 4
Beiträge: 112
Registriert: 18.07.2011, 16:21

Beitrag von vidi » 20.02.2013, 10:08

ich habs "befürchtet".

Danke an alle, die bei der Diskussion konstruktiv mitgemacht haben!

webbastler
PostRank 6
PostRank 6
Beiträge: 420
Registriert: 11.01.2013, 11:09
Wohnort: umgezogen nach Hückeswagen

Beitrag von webbastler » 20.02.2013, 10:47

Hallo Beloe007
klar mache ich vieles falsch, habe vor 12 Jahren mit selfhtml angefangen und entwickelte mich langsam bis zum HTM5 bzw.6.

Schreibe den gesamten Quelltext aller Seiten selber, aber das ist doch vollkommen nebensächlich.

Die über ca. 800.000 Anfragen beziehen sich übrigens auf die Startseite.

Wichtig ist doch letztendlich nur, ob das Ranking und der Kunde leidet.

Beides ist nicht der Fall!

Durch den htaccess Befehl erscheint auf der 404 Fehlerseite immer meine index- Startseitenkopie,
der Kunde ist nicht beeinträchtigt da er keine Fehlermeldung bemerkt, und Google ist es offensichtlich egal, denn es wertet nicht ab.

Was wollt Ihr denn erreichen, eine praktikable Lösung, oder besser wissend im Fantasiebereich Eure fragwürdigen Theorien diskutieren

Praktikabilität ist die einzige business Lösung.

Adjö

vidi
PostRank 4
PostRank 4
Beiträge: 112
Registriert: 18.07.2011, 16:21

Beitrag von vidi » 20.02.2013, 11:04

oder besser wissend im Fantasiebereich Eure fragwürdigen Theorien diskutieren
Ich frage mich immer noch warum Du überhaupt noch mitdiskutierst, wenn alles was wir schreiben fragwürdig und besserwissend ist? Ist nicht grad das, was Du hier abziehst besserwissend? Prahlst hier mit Erfolgen ohne einmal eine Domain genannt zu haben. Sagst, dass alles was Du machst viel besser ist, als das was hier diskutiert wird....usw.

Hier hat Dich bisher niemand angegriffen, warum beleidigst Du dann andere?
Immer erst auf die eigenen Finger schauen, bevor man andere kritisiert!

webbastler
PostRank 6
PostRank 6
Beiträge: 420
Registriert: 11.01.2013, 11:09
Wohnort: umgezogen nach Hückeswagen

Beitrag von webbastler » 20.02.2013, 11:57

Hallo Vidi,
ich prahle nicht mit Erfolgen ich bin ein fleißiger Mensch und relativ erfolgreich.

Leider wollt Ihr von einem alten Hasen keinen Rat annehmen.

Ich will meine Seiten nicht preisgeben, weil ich in Vergangenheit von mehreren Denunzianten belästigt wurde.

Google nimmt nämlich bei jeder Denunziation zuerst einmal rein vorsorglich die Seite aus den Inden und man dann das Erklärungstheater am Halse.

Problem sind die vielen dummen Neider!

Melegrian
PostRank 10
PostRank 10
Beiträge: 3170
Registriert: 30.01.2005, 12:36

Beitrag von Melegrian » 20.02.2013, 11:59

vidi hat geschrieben:Ich frage mich immer noch warum Du überhaupt noch mitdiskutierst,
Wenn ich einige Antworten von webbastler in einigen anderen Threads lese, so gehen die auch kaum auf die eigentliche Fragestellung ein. Nicht darauf anspringen, scheint ein Forentroll zu sein.

webbastler
PostRank 6
PostRank 6
Beiträge: 420
Registriert: 11.01.2013, 11:09
Wohnort: umgezogen nach Hückeswagen

Beitrag von webbastler » 20.02.2013, 12:57

Richtig Melegrian,

die fragen um Rat, und wollen alles im voraus schon besser wissen.

Praktikables Wissen und Erfahrungen interessiert nicht.

Wirklich Schade, der echte Ratsuchende wird nur mit halbintelligenten Theorien aus dem Googlewebmasterclub verunsichert.

Echte Ratschläge von alten erfahrenen Hasen sind unerwünscht.

Gut, daß ich als Privatier mit weit über 70 auf die paar Euro Rente nicht angewiesen bin, ansonsten müsste ich bei diesen selbsternannten Webmastern echte Befürchtungen ob meiner Einkünfte haben.

vidi
PostRank 4
PostRank 4
Beiträge: 112
Registriert: 18.07.2011, 16:21

Beitrag von vidi » 20.02.2013, 13:04

Könnten wir mit dem OT aufhören bitte, sonst schließt der Admin diesen Thread noch.

Melegrian
PostRank 10
PostRank 10
Beiträge: 3170
Registriert: 30.01.2005, 12:36

Beitrag von Melegrian » 20.02.2013, 14:56

Was möchtest Du noch wissen?
Wenn ich das bisherige zusammenfasse, würde es in etwa ergeben:

Der Bot liest entweder keine Fehlerseiten oder er liest sie doch, dann aber ohne diese zu indizieren. Wenn es sich bei der Fehlerseite um eine PHP-Seite handelt, wird die vor Auslieferung geparst und der Response Header mit Statuscode und der Response Body an den Crawler übertragen. Der Crawler wird je nach Einstellungen bei einem 404 abbrechen und die nächste URL aufrufen oder er wird nicht abbrechen und die Seite doch lesen.

Was ein einfacher Crawler beim Request anfordert, wird aber nur die eigentliche URL/Datei sein und nicht die in der Datei referenzierten Medien, da deren Anforderung weitere Anfragen beim Server voraus setzen würde. Anders bei Browsern, die starten vier oder mehr Request gleichzeitig, um möglichst alles schnell abzuholen, zu verarbeiten und auszugeben, dabei wird dann vieles gecacht, damit nicht bei jedem Aufruf alles neu angefordert werden muss. Sollte aus den Logs sichtbar werden, dass ein Bot nur /seite.html abruft, ein Browser hingegen:

/seite.html
/image-1.jpg
/image-2.jpg

Habe vorsichtshalber noch einmal in den Logs nachgeschaut, bevor ich Müll schreibe, in den kontrollierten sah es zumindest so aus.

elmex
PostRank 9
PostRank 9
Beiträge: 1009
Registriert: 03.05.2005, 09:09

Beitrag von elmex » 20.02.2013, 19:53

vidi hat geschrieben:Fakt ist also, man kann es nicht messen ob der Google Bot die Seite bis zum Ende gelesen hat, richtig?
Doch natürlich kann man das messen. Man konfiguriert seinen Webserver einfach so, dass er die menge der gesendeten Daten mit in das access_log schreibt (was meist eh schon so konfiguriert ist). Hier eine Zeile aus einem typischen Apache-Log:

123.156.15.121 - - [20/Feb/2013:19:51:01 +0100] "GET /istnixda.htm HTTP/1.1" 404 210

die letzte Zahl, die 210 ist die Menge der übertragenen Bytes.

Genauso sieht es eigentlich aus, wenn der googlebot anfragt, bloss halt dann mit einer anderen IP...

Melegrian
PostRank 10
PostRank 10
Beiträge: 3170
Registriert: 30.01.2005, 12:36

Beitrag von Melegrian » 20.02.2013, 20:16

Da hörte mein Verständnis gestern gerade auf, denn das ist ja das, was der Server als Response an den Crawler sendet, aber nicht das, was der Bot auch von der empfangenen Response liest.

Und da die Frage sich zum Teil auf eine PHP-Datei bezog, die den HTTP-Statuscode mit ausgeben soll, muss ja der Server erst einmal die PHP-Datei parsen, anschließend den gesetzten Header und den Body an den Crawler übertragen und der Crawler wird davon entweder nur den Header lesen oder den Header und danach den Rest.

Anders kann ich mir das bislang nicht vorstellen. Es sei denn, der HTTP-Header mit dem Statuscode und der zugehörige Body mit der Nachricht werden in einzelnen Datenpaketen hintereinander übertragen oder so und der Crawler bricht zwischendurch ab und empfängt den Rest nicht mehr. Trotzdem müsste der Server meiner Meinung nach erst einmal die ganze Datei parsen.

Vom Prinzip könnte man diese Übertragung der Response vom Server zum Crawler mit einem Download vergleichen, der nach dem Empfang des Headers abgebrochen wird. Doch verhält es sich so, dass der Server die Antwort (geparste Fehlerseite) zur Übertragung bereitstellt und der Crawler nach Empfang des Headers die Verbindung kappt. Oder wird der nicht alle Daten empfangen, doch davon je nach Einstellung nur den Header lesen?

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag