Um versteckte Texte zu erkennen, müsste der Bot auch mit verschiedenen Referern kommen und JavaScripte ausführen.
Der naheliegendste Ansatz wäre, einen Screenshot zu nehmen, und alle Keywords per OCR zu extrahieren. Wie viele Seiten hat Google jetzt im Index? Wie lange braucht eine OCR für diesen Job? Wie aktuell kann so ein System sein?
Vergesst es! In einhundert Jahren könnt Ihr diese Diskussion nochmal aufrollen...
Das eröffnet ja ganz neue Wege der Arbeitsmarktpolitik.
Die eine Hälfte der Bevölkerung erstellt Spam-Seiten, die andere Hälfte bearbeitet die Spam-Reports --> Vollbeschäftigung für alle!
Nur wer schaut sich die paar übrig gebliebenen echten Websites an? Da müssen wir dann vielleicht noch ein paar Inder anstellen.
Ne, aber nun im Ernst. Ihr habt schon recht, "gerechte" Algorithmen zu finden sind schon schwer. Aber was ist bei SuMas schon gerecht. Ist auch ungerecht, dass Spammer oder nutzlose Seiten mir die Positionen verbauen. Ist natürlich Abwägungssache und das Verfahren im Zweifel für den Angeklagten finde ich eigentlich auch hier in Ordnung. Nur müsste Google halt auch vernünftig die Spam-Reports bearbeiten. Aber, wenn der Google Index immer unnutzbarer wird wegen Spam, werden die das schon noch verbessern.
Bis dahin gilt: Zähne zusammenkneifen und mit den Arschbacken knirschen (oder wie war das)