web_worker hat geschrieben:sumacrusader hat geschrieben:wenn ein bot einen 600 Wörter langen Text nur bis zum Wort 300 crawlt fehlt der Rest halt
einen Text nur zur Hälfte crawlen und auswerten ist sinnfrei.
sumacrusader hat geschrieben:einen Text nur zur Hälfte crawlen und auswerten ist sinnfrei.
Irgendwann kommt ein timeout und dann bricht der bot ab und liest die Seite nicht zu ende.
Viele seiten liegen weder in html vor .... werden aus der DB zusammengebaut.
Wann kommt der Timeout?
z.B. Wordpress und alles was den html durch php unterbricht
Da wird die Seite stückschenweise ausgegeben
Der Content ist aber wohl anzunehmenderweise EIN Stückchen
entweder
(A) vor diesem Stückchen wird ein PHP nicht vertig
(B) nach diesem Stückchen wird ein PHP nicht vertig
entweder
(A) der Content ist ganicht da
(B) der COntent ist komplett da (aber der Footer fehlt und vielleicht die Navi, wenn die im HTML nach dem Content kommt)
Die Seite wird vielleicht nur "halb" = zu50% +- 49% gelsen
aber der Content wird sicherlich entweder ganz oder garnicht
.... OK. Blogbeitrag = eine DBabfrage und die Kommentare eine Weitere DBabfrage ... eventuell ... und die Kommentare sind ja Web2.0 Content
bei mir ist es so, das erst alles eingelesen und generiert wird und dann das html als großes ganzen rausfliegt ..... keine Stückchenweise auslieferung .... da kann dann schonmal so ein Timeaut leichter zuschlagen .... der Timeoutzähler beginnt nehmlich eventuell von vorne zu zäheln nachdem ein Häppchen gekommen ist