Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Liest der Bot die gesamte 404 Seite oder haut er sofort ab,

elmex
PostRank 9
PostRank 9
Beiträge: 1009
Registriert: 03.05.2005, 09:09

Beitrag von elmex » 20.02.2013, 20:40

Mit der php (oder anderen server-skripten) Datei hast du natürlich völlig recht, die wird erst auf dem Server geparst, bevor die Response gesendet wird.

Bei der GET Anfrage wird Google die Daten schon abholen, das gehört sich ja so. Ob die dann aber die Daten weiterverwenden und wenn ja wie, das wissen wir natürlich nicht wirklich.

Google könnte natürlich auch eine HEAD Anfrage senden, wo eben keine Daten sondern nur die Header gesendet werden, hab ich aber noch nie gesehen, daß ein Googlebot (ausser gefakten) solch eine Anfrage gesendet hat.

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Melegrian
PostRank 10
PostRank 10
Beiträge: 3170
Registriert: 30.01.2005, 12:36

Beitrag von Melegrian » 20.02.2013, 21:06

Ich möchte gar nicht unbedingt recht haben, weil das ja nur meinen Vorstellungen entspring, ohne es genau zu wissen. Wenn ich jetzt einen Vergleich machen würde, ein Brief wird ausgetragen, Empfänger liest den 404 Absender und wirft den Brief ungeöffnet in den Papierkorb.
Scripts und Plugins für Cookie-Hinweise

elmex
PostRank 9
PostRank 9
Beiträge: 1009
Registriert: 03.05.2005, 09:09

Beitrag von elmex » 20.02.2013, 21:10

Ja schon, aber ich würde eher sagen, Empfänger liest den Brief, aber tut so, als hätte er ihn nicht gelesen ;)

Wenn man bedenkt, dass Google nicht mal die "gelöschten" Emails in Gmail löscht... kriegt man zumindest das Gefühl, was die einmal haben, geben sie nicht wieder her :)

Wo ich gerade darüber so nachdenke, Google MUSS die 404 lesen und auswerten - sonst könnten die nämlich diese "Soft 404" Anzeige in den WMT gar nicht anbieten.

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Melegrian
PostRank 10
PostRank 10
Beiträge: 3170
Registriert: 30.01.2005, 12:36

Beitrag von Melegrian » 20.02.2013, 21:54

Ja, wird wohl so sein. Nur wenn ich das mit "Soft 404" nicht gelesen hätte, dann hätte ich nicht gewusst, dass es so etwas gibt. Kommt wohl nur, wenn keine richtige Fehlerseite eingerichtet wurde oder die Fehlerseite nicht richtig weitergeleitet wird. Wenn gar keine eingerichtet wird, dann kommt ja auch nur "Not Found".

MonikaTS
PostRank 10
PostRank 10
Beiträge: 3582
Registriert: 07.10.2005, 09:05

Beitrag von MonikaTS » 20.02.2013, 23:06

elmex hat geschrieben:Ja schon, aber ich würde eher sagen, Empfänger liest den Brief, aber tut so, als hätte er ihn nicht gelesen ;)

Wenn man bedenkt, dass Google nicht mal die "gelöschten" Emails in Gmail löscht... kriegt man zumindest das Gefühl, was die einmal haben, geben sie nicht wieder her :)

Wo ich gerade darüber so nachdenke, Google MUSS die 404 lesen und auswerten - sonst könnten die nämlich diese "Soft 404" Anzeige in den WMT gar nicht anbieten.
nein dazu muss ich nur die Status Code der Header auswerten, ich muss dazu nicht den Inhalt der Seiten auswerten...

Melegrian
PostRank 10
PostRank 10
Beiträge: 3170
Registriert: 30.01.2005, 12:36

Beitrag von Melegrian » 20.02.2013, 23:53

Jetzt habe ich mich noch etwas belesen. Einfach eine Verbindung einseitig kappen, scheint kaum möglich zu sein, entweder beidseitig oder schrittweise. Um bei Vergleichen zu bleiben, der Versand scheint nur per Einschreiben mit Rückantwort abzulaufen.

Verbindungsabbau: https://de.wikipedia.org/wiki/Transmiss ... l_Protocol

(HTTP ist das Protokoll, TPC die Protokollsteuerung)

Die Response, bestehend aus HTTP-Header, einer Leerzeile und dem Body, dürfte somit nur komplett ausgeliefert und angenommen werden können.

Aufbau: https://de.wikipedia.org/wiki/Hypertext ... r_Protocol

Und wer in den WMT mal auf "Abruf wie durch Google" geht und dort eine fehlerhafte URL eingibt, sollte genau das sehen, was auch der Crawler sieht:

Code: Alles auswählen

HTTP/1.1 404 Not Found
Date: Wed, 20 Feb 2013 23:12:49 GMT
Server: Apache
Last-Modified: Sat, 20 Aug 2011 18:05:45 GMT
Accept-Ranges: bytes
Content-Length: 20461
Keep-Alive: timeout=15, max=100
Connection: Keep-Alive
Content-Type: text/html

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>

<head>
<title>Fehlermitteilung für Besucher</title>
<meta http-equiv="Content-Style-Type" content="text/css">
<meta http-equiv="Content-Language" content="de">
<meta name="robots" content="noindex,follow">
<meta name="Language" content="de">
<meta name="description" .......
.............
Zuletzt geändert von Melegrian am 21.02.2013, 00:22, insgesamt 1-mal geändert.

IT-Knecht
PostRank 8
PostRank 8
Beiträge: 772
Registriert: 13.02.2004, 09:04
Wohnort: ~ Düsseldorf

Beitrag von IT-Knecht » 21.02.2013, 00:20

Den ganzen Stoff hast Du Dir sorgfältig reingezogen?
Und was ist mit diesem Satz:
Der Datentransfer kann selbstverständlich jederzeit nach dem „Aufbau einer Verbindung“ gestört, verzögert oder ganz unterbrochen werden. Das Übertragungssystem läuft dann in einen Timeout. Der vorab getätigte „Verbindungsaufbau“ stellt also keinerlei Gewähr für eine nachfolgende, dauerhaft gesicherte Übertragung dar.
Also einen TCP-Transfer kann man natürlich abbrechen.
Wenn vom Empfänger kein ACK mehr kommt, hört der Sender nach einigen Paketen auf zu senden.


- Martin

Melegrian
PostRank 10
PostRank 10
Beiträge: 3170
Registriert: 30.01.2005, 12:36

Beitrag von Melegrian » 21.02.2013, 00:28

IT-Knecht hat geschrieben:Den ganzen Stoff hast Du Dir sorgfältig reingezogen?
Nein, ich habe mir nicht alles reingezogen, eher bisher immer einen Bogen um den Stoff gemacht. Doch das bezieht sich wohl mehr auf unsaubere Abbrüche.

elmex
PostRank 9
PostRank 9
Beiträge: 1009
Registriert: 03.05.2005, 09:09

Beitrag von elmex » 21.02.2013, 09:27

MonikaTS hat geschrieben:
elmex hat geschrieben:Ja schon, aber ich würde eher sagen, Empfänger liest den Brief, aber tut so, als hätte er ihn nicht gelesen ;)

Wenn man bedenkt, dass Google nicht mal die "gelöschten" Emails in Gmail löscht... kriegt man zumindest das Gefühl, was die einmal haben, geben sie nicht wieder her :)

Wo ich gerade darüber so nachdenke, Google MUSS die 404 lesen und auswerten - sonst könnten die nämlich diese "Soft 404" Anzeige in den WMT gar nicht anbieten.
nein dazu muss ich nur die Status Code der Header auswerten, ich muss dazu nicht den Inhalt der Seiten auswerten...
Doch. Denn Soft 404 geht nicht (nur) um Weiterleitungen sondern um Seiten wo sowas wie "Fehler, Seite nicht gefunden" steht, aber die eben nicht den passenden 404 Header senden.

elmex
PostRank 9
PostRank 9
Beiträge: 1009
Registriert: 03.05.2005, 09:09

Beitrag von elmex » 21.02.2013, 09:34

Melegrian hat geschrieben:Doch das bezieht sich wohl mehr auf unsaubere Abbrüche.
Genau!

IT-Knecht
PostRank 8
PostRank 8
Beiträge: 772
Registriert: 13.02.2004, 09:04
Wohnort: ~ Düsseldorf

Beitrag von IT-Knecht » 21.02.2013, 10:13

Was nichts daran ändert, dass man einen TCP-Socket jederzeit schließen kann.
Und dass dann der Rest der Datenblöcke nicht mehr sinnlos gesendet wird.

- Martin

Melegrian
PostRank 10
PostRank 10
Beiträge: 3170
Registriert: 30.01.2005, 12:36

Beitrag von Melegrian » 21.02.2013, 11:13

IT-Knecht hat geschrieben:Was nichts daran ändert, dass man einen TCP-Socket jederzeit schließen kann.
Programmtechnisch sollte sich das dann zum Beispiel in C mit close() umsetzen lassen?
Außerdem kann bewirkt werden, daß ein Socket sofort geschlossen wird, ohne daß die noch ausstehenden Daten versendet werden.
https://www.zotteljedi.de/socket-tipps/close.html

In der Zusammenfassung von PHP liest es sich dann so für mich, als würde ein Abbruch den Port blockieren?

https://www.php.net/manual/de/function.socket-close.php

Melegrian
PostRank 10
PostRank 10
Beiträge: 3170
Registriert: 30.01.2005, 12:36

Beitrag von Melegrian » 25.02.2013, 11:25

Habe mal ein kleines Script geschrieben, um einen Abbruch von TCP-Socket-Verbindungen zu testen. Dabei in der Schleife if-Statements mit Abbruchbedingungen eingefügt.

Problem dabei, wenn ein Abbruch bei 404 erfolgen soll, so wird der HTTP-Header auch nicht mehr ausgegeben. Erfolgt der Abbruch jedoch erst bei Body, so wird ja nur der Header mit den bereits übermittelten Daten angezeigt, somit ob mit oder ohne Abbruch, in beiden Fällen mit denselben Werten für Content-Length. So einfach lässt sich zumindest nicht feststellen, was bei einem Abbruch eigentlich übermittelt wurde und was da an Daten eventuell trotz Abbruch übermittelt oder gepuffert wird.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag