Es ist ein Multiserversystem, und die Arbeit wird zwischen den Servern aufgeteilt. Ich vermute auch dass die einzelnen Rechner Multiprozessing betreiben, da Google sonst eine Menge Zeit verplempern würde um auf das Übertragen von Seiten zu warten. Bis die Telegramm von Google zu dem jeweilgen Server übertragen sind und die Antworten kommen vergehen einige Millisekunden (meisstens doch im Zehnerbereich.... quasi die Ping-Zeit halt). Manche Webseiten brauchen noch länger um zu antworten (z.B. dynamische, bis sie aufgebaut sind), und manche Seiten antworten erst gar nicht. Und ein paar Millisekunden sind für eine CPU sehr viel Zeitkommen nicht mehrere Googlebots gleichzeitig, da dies ein Multiprozessing des Server voraussetzen würde.

Wenn Google kein Multiprozessing benutzen würde, dann würden sie verdammt viel Zeit für nix verplempern die sie für das Crawlen benutzen könnten.
Aber selbst wenn man das mal ausser acht lässt, ist es ein Multiserversystem und die Arbeit wird unter den Servern aufgeteilt.
Bei mir kann ich oft den Effekt beobachten, dass mehrere Crawler mit unterschiedlichen IPs gleichzeitig da sind, wobei sich jeder Crawler gerade was anderes "ansieht".
Mit "gleichzeitig" meine ich: Crawler A liesst Seite x, Crawler B Seite y, Crawler A Seite z usw usw usw.
Die scheinen sich die Arbeit also schön aufzuteilen und (sinnvollerweise) darauf zu achten, dass sie nicht unnötigerweise Sachen mehrfach lesen. Wozu soll Crawler A Seite y lesen, wenn Crawler B das macht? Würde ja nur unnötigen Traffik kosten, und es würden sich mehrere Rechner bei Google mit derselben Seite beschäftigen, obwohl die genug anderes pro Tag noch zu crawlen haben

Kommt bei Dir wirklich immer nur ein einziger Crawl-Bot? Auch wenn Google ab und zu mal seinen scheinbaren Update-Rappel bekommt? Bei mir kommen die Crawler (mit versch. IPs) dann immer wie scheinbar abgesprochen in Rudeln.
Hmm, ich denke ich verstehe was Du meinst. Aber meiner Meinung nach vergleichst Du die Crawler zu sehr mit normalen Surfern, die ja wirklich über Links die sie finden durch die Seite navigieren.Statt auf sich selber zu verlinken, schicke ich ihn einfach ins Impressum. Idealerweise findet er von dort natürlich selber wieder zurück zur Startseite. Somit wäre es keine Botverarschung sondern eine ganz normale 301er Umleitung. Der Bot denkt dann nicht "Startseite existiert nicht mehr da 301 aufs Impressum", sondern er findet (über DIESEN LINK) die Startseite gar nicht, sondern der Link geht für den Bot (da über htaccess gesteuert) direkt ins Impressum. Und da er per 301 dort hingeleitet wird, gehört die Seite ab da wieder mir.
Google hat aber eine ganz andere Zeilsetzung und macht es etwas anders (ich weiss, gewaagte Behauptung von mir ohne Beweis

Die Crawler können nicht wild die Links besuchen die sie auf den Seiten finden. Würde auch keinen Sinn machen. Alleine hier im Forum z.B. könnten die sich dann ewig aufhalten. Überall findest Du hier Links die z.B. wieder auf die Startseite des Forums führen, von dort wieder runter, von dort wieder hoch, usw usw.
Schlauer wäre es doch, jede Seite nur einmal zu besuchen. Alles andere wäre Traffik- und Rechenzeitverschwndung, und jeder Webmaster würde sich auch beschweren wenn seine Seiten unnötigerweise mehrfach gecrawled werden.
Und genau das scheit Google auch zu machen: Jeder Link der gefunden wird, wird in eine (mal platt ausgedrückt) Liste aufgenommen. Und diese Liste wird von den Crawlern abgearbeitet. So werden alle bekannten Links gecrawled, ohne dass auch nur eine Seite dazu mehrfach gelesen werden muss.
Ansonsten wäre Google wahrscheinlich Jahre beschäftigt und würde kaum vorwärts kommen, wenn es jedem Link direkt einfach so "folgt".
Genau dann aber würde Dein Umleitungstrick nicht funktionieren: Wenn Google die betreffende Seite einmal gelesen hat und den 301er bekam, dann hat er die Seite gelesen, kennt sie, und fertig. Erst wenn er wieder das Bedürfnis hat nachzuschauen ob es auf Deinen Seiten was neues gibt, dann würde er sich diese Seite wieder neu anschauen, wobei die Zeit bis er sie weider besucht vermutlich von von PR, LP, DP und was-weiss-ich-für-Faktoren abhängt.
Was passiert dann? Dann hast Du entweder Dein Flag/Variable schon auf einen anderen Crawler derweil angewendet und schickst wieder einen 301er, oder diesmal bekommt er die richtige Seite, hat aber nach wie vor nochgespeichert, dass es irgendwo einen bösen 302er genau auf diese Seite gibt, und der 301er zählt nichtmehr, da die 301er-Seite ja nun durch eine andere Seite (Deine Richtige) ersetzt wurde.
Puuh, und das um die Zeit....
Aber auch wenn ich bezweifele dass der Ansatz funktioniert, bin ich natürlich neugierig was dabei rauskommt falls Du das ausprobieren solltest. Neue Erkentnisse über Google sind immer interessant

Wenn Du das also wirklich Testen solltest und in irgendeiner Form dazu Unterstützung brauchen kannst (Link zu Deiner Testseite o.Ä.) helfe ich gerne.