Als jemand, der gerade selbst an einer "domänenspezifischen" experimentellen semantischen Suchmaschine für einen sehr eng begrenzten Bereich rumwerkelt (und daher grad wenig bloggt etc.

):
Ich möchte dann natürlich auch nur thematisch passende Ergebnisse liefern, und ich habe da in meinem Bereich den Vorteil, dass ich die "Szene" im Netz seit Jahren kenne, also alle relevanten Websites. Der Bereich war vor einigen Jahren schon mal mehr en vogue, aber derzeit ist die Anzahl der neu entstehenden Projekte (so vorhanden) dort extremst überschaubar. Das hat den Vorteil, dass ich die zu spidernden Domains im Prinzip manuell festlegen kann und die Indexgröße in dieser experimentellen Phase von mir selbst überwacht werden kann. Muss auch sein, schließlich kann ich mir keine fetten Serverfarmen á la Google hinstellen.
Und da sind wir beim Hauptproblem: wenn man in einem Bereich alles abdecken und finden will, was es gibt, dann braucht man ganz viele Ressourcen. Das macht man nicht mit 08/15-Webspace, und EIN eigener Server ist da auch etwas mager.
Automatisiert den Google-Index abfragen und das alles spidern ist auch keine Lösung, weil a) Google keine automatisierten Abfragen mag und b) nach 1000 von möglicherweise x Millionen Treffern Schluss ist.
Also was mache ICH bei meinem Projekt?
Ich starte mit einem Pool an Domains, sammle dort vorhandene Links (es gibt eine Community, viele Hubs) und spidere davon diejenigen weiter, deren Domain ich freigegeben habe - die sich auf das Thema spezialisiert haben und deren robots.txt mich nicht ausschließt (ok, sowas hat in dem Bereich keiner, alle keine Ahnung von SEO, das gibt's echt noch!).
Dazu kommen dann Seiten von Zeitungen etc., also themenübergreifenden Portalen.
Dort muss ich dann schauen: geht ein Link von einer themenrelevanten Seiten drauf? Gibt es Hinweise (Keys?) in der URL? Oder kann ich die URLs (vielleicht 10 oder 20 neue am Tag zur "Saison") manuell hinzufügen? Oder dabei mehr automatisiert machen und doch nur den Content auswerten, was wieder Ressourcen frisst, da ich auch alle Seiten durchsuchen muss, die nicht relevant sind? Bei der automatisierten Auswertung auch ggf. themenfremder Unterseiten von zugelassenen Websites greife ich auf übliche Methoden des Text Mining und Information Retrieval zurück, was dann noch durch Ontologien verfeinert werden soll.
Ich sehe kein größeres Problem darin, durch Letzteres thematisch irrelevante Seiten von der Aufnahme in den Index auszuschließen (-> precision) - die größere Schwierigkeit besteht m.E. definitiv darin, möglichst alle thematisch relevanten Seiten mit geringen Ressourcen erstmal zu finden (-> recall).
In meinem Bereich und für mich ist auch das mit dem Recall einigermaßen zu bewerkstelligen - wenn man das allerdings mit dem Geldverdien-Seiten-Beispiel durchziehen möchte, sehe ich relativ schwarz, weil ja Hinz und Kunz seinen Blogbeitrag dazu schreibt.