Ich glaubs nicht, jetzt ist der schon wieder da. Heute läuft die IP 66.249.72.244 mit "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)" mal wieder Amok. nofollow und noindex werden wieder komplett ignoriert und Session-IDs an URLs gehangen, wo der Bot keine bekommen könnte.
Kann Google das nicht bald mal in den Griff bekommen?
Mach dir nix draus, bei mir wird auch grad die komplette HP zum dritten Mal innerhalb einer Woche komplett gespidert (> 3000 Seiten), obwohl ich nix dran geändert habe.
Da scheint also irgendwas nicht so zu funktionieren wie es sollte.
Der "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)" indiziert auch nichts, also sind nofollow und noindex da ohnehin irrelevant.
Der dient zum Aufspüren von Müll - was er genau macht, weiß niemand.
nicht nur der MozillaBot von Google rennt durch die noindex,noarchive Seiten, auch der Yahoo Slurp macht das.
Die halten sich aber dran, noindex-Seiten wirklich nicht zu "indizieren" (in den Suchdatenspeicher ablegen), sondern kennen dann lediglich die URL oder weiterhin "no result". Google speichert von den Seiten auch keine Cache Version.
Google muss ja auch die noindex Seiten besuchen, sonst würde die Anzeige "durch robots.txt gesperrte Seiten "soundsoviel Prozent" in der Crawlstatistik des Sitemapaccounts nicht stimmen oder keine Daten haben.