Erster Post hier *lampenfieber*

Manch einen mag mein Problem eher wie ein Luxusproblem erscheinen, aber ich will hier endlich Zusamenhänge verstehen.
Von 688230 Seiten der XML-Sitemap (Teile zu 10000) sind "nur" 68500 Seiten im Index.
Welche Kriterien sind entscheidend, um dem Maximum so nah wie möglich zu kommen?
Die Seite hat derzeit einen PR 4. Erwähne das nur, weil ich irgendwo gelesen habe, dass dies ein Faktor sein soll bei der Anzahl der Seiten, die Google im Index aufnimmt.
Im Web habe ich in der genannten Größenordnung keine für mich verwertbaren Hinweise gefunden.
Vielen Dank
Edit: Duplicate Content sollte eigentlich ausgeschlossen sein