@Kristian
Du denkst auch an die Möglichkeit, dass der Coder des Scripts nicht dumm war und sein Script mit der Möglichkeit versehen hat auf IF_MODIFIED_SINCE zu reagieren.
Grundsätzlich hast Du Recht, hantiert man allerdings zusätzlich noch mit mod_gzip und/oder caching, wird es vermutlich keine 1 % der Webmaster geben, die hierzu (technisch) in der Lage ist.
Die Geschichte mit dem IF_MODIFIED_SINCE + 304 scheitert leider oftmals an der mangelhaften Konfiguration der Server, was für die SUMAs nicht gerade gut ist, denn so entsteht "unnötiger" Traffic...
Das was Du als "Machenschaften" (beispielsweise die reelle Ausgabe des /Last-Modified/ oder /Content-Length/ im Header auch bei dynamisch generierten Seiten) bezeichnest, könnte - neben Einsatz von z.B. mod_gzip - den Suchmaschinen etliches an Kapazität ersparen.
Vermutet ein SUMA-Spider hinter eine Header-Ausgabe eine Manipulation, besteht technisch die Möglichkeit, die betreffende Seite mit HEAD statt GET aufzurufen, da fliegt noch Manches auf...allerdings macht das Alles keinen Sinn, denn davon (Header-Machenschaften) profitiert maximal eine Suchmaschine...
:-):-)
@wweasel
Seiten / Verzeichnisse die per Disallow in der robots.txt für eine SUMA Tabu sind, dürften erst gar nicht in den Index gelangen, ist die komplette Seite Tabu ("/") grenzt es schon an Stümperhaftigkeit (oder halbseidener Absicht?) die Seiten zu crawlen und zu indexieren...Bevor Du Dir Gedanken zu der Definition einer Suchmaschine machst, solltest Du schon mal mit dieser "Kleinigkeit" anfangen...
Gruss,
KC