Seite 1 von 1

Suchmaschine in Intranet integrieren

Verfasst: 09.05.2006, 14:21
von amok
Hey zusammen,

hab das Forum schon ne ganze Weile durchsucht, aber nix wirklich brauchbares gefunden. Ich bin recht neu auf dem Gebiet und stehe grad vor einem (für mich größeren) Problem.

Wir sind Externer Dienstleister für eine große Firma. Wir pflegen für ihn einen kompletten Intranet-Bereich, welcher mittlerweile auch eine stattliche Größe hat.
Zur Problematik.
Es gibt ein Unterverzeichnis in diesem Web, bestehend aus 7 Html-Seiten auf denen jede Menge Dokumente (ca. 2 GB an XLS und PPT) verlinkt sind. Nun soll hier eine Suche integriert werden. Wir selbst können keinerlei Anwendungen im Intranet Installieren um eine eigene Suche zu realisieren. Also müssen wir die Suchfunktion verwenden, welche von der Firma auch standardmäßig verwerdet wird. Diese basiert wohl auf einer Google-ähnlichen Basis und indiziert alle Seiten.
Nun will ich dass die Suche innerhalb aller 7 Seiten im Kopf eingebunden wird (schon passiert) aber auch wirklich nur diese 7 Seiten indiziert und den kompletten Rest ignoriert. Das heißt Suchergebnisse sollten sich nur auf diese Inhalte beziehen.

- Gibt es da Befehle um nur die momentane Seite zu durchsuchen?
- Gibt es da ne Möglichkeit über die robots.txt?
- Muss ich alle Seiten quasi "disallowen" und nur dieses Verzeichnis nicht,
oder kann ich irgendwie sagen disallow alle Verzeichnisse und die 7 Seiten explizit einzuladen.

Puuh schwierig mein Anliegen zu formulieren:-)
Muss die Robots-Datei dann eigentlich auf im Rootverzeichnis liegen, oder reicht es, wenn diese in eben diesem Verzeichnis liegt wo die 7 Html-Seiten liegen. Schließlich ist die Suche ja auch nur dort eingebunden.

Ich versuche mir grad einfach ein Bild zu verschaffen, was da alles möglich ist und was da die beste Lösung wäre. Vielleicht kann mir ja einer von euch da weiterhelfen. Wie schon gesagt, für mich ist das ganze Thema noch total Banane :-)

Verfasst:
von

Verfasst: 09.05.2006, 14:24
von Nullpointer
man muß ja erst mal wissen, wer da sucht.
ob dieser robot die robots.txt überhaupt beachtet. intranet wird ja kaum von einer externen suma indiziert.

basiert das intranet auf einer portallösung mit integrierter suche?

Verfasst: 09.05.2006, 14:32
von amok
Wow das ging ja schnell :wink:
Also die robots.txt wird auf jeden Fall beachtet soweit ich das in Erfahrung bringen konnte.
Das Intranet besteht aus jede Menge Unterwebs mit verschiedenen Portalen zu hunderten von Bereichen. Und einer davon ist eben das Web welches wir pflegen.
Die Suchfunktion wurde erst vor kurzem aufgesetzt und ist eigentlich dazu da, immer das ganze Web zu indizieren um global suchen zu können. Aber wie schon gesagt, sollten nur Ergebnisse (die Inhalte von den PPT und XLS) von diesen 7 Seiten gelistet werden und auch nur von dort gesucht werden.

Verfasst: 09.05.2006, 15:01
von Nullpointer
bin ja kein robots-texter aber eigentlich müßte es dann ja mit
User-agent: *
Allow: /deinkram/

oder mit
Allow: /liste1.html
Allow: /liste2.html
Allow: /liste3.html
etc.

zu machen sein.
lösung eins, falls alles in einem verz. liegt und lösung 2 halt, wenn du die zu indizierenden dateien explizit angeben möchtest. sollen nur die 7 dateien indiziert werden, oder auch alle von ihnen verlinkten, dann wäre es praktischer alles in einem verz. zu haben.

Verfasst: 09.05.2006, 15:06
von amok
Schonmal danke.
Hmmm...Da sprichst du auch gleich einen guten Punkt an, was mir noch gar nicht so bewusst war.

Ich möchte dass alle Inhalte (Alle PPT, XLS und auch die Texte) indiziert werden. Nicht aber die Seiten, die von der Navi aus in andere Verzeichnisse verlinken.

Verfasst: 09.05.2006, 15:08
von amok
Steht auch alles, was indiziert werden soll in einem Verzeichnis. Reicht es dann aus, die robots.txt nur darin abzulegen. Es ist ja quasi das Rootverzeichnis für die Suchmaschine, oder?

Verfasst: 09.05.2006, 15:35
von Nullpointer
die robots bezieht sich auf verzeichnisse und dateien. wenn in der navi ein gesperrtes verz verlinkt ist, wird das ignoriert.

die robots sollte da liegen, wo der robot anfängt zu spidern. der wird ja irgendwo konfiguriert.

mit
User-agent: *
Allow: /deinkram/

würdest du richtig fahren, wenn der robot in deinkram anfängt zu spidern.
sicherheitshalber könntest du ihm noch explizit nur die gewünschten dateitypen erlauben.

Verfasst: 09.05.2006, 15:38
von amok
Dann müsste es eigentlich so funktionieren, wie du es oben beschrieben hast.
Einfach die Robots in das Verzeichnis schmeißen, und komplett alle anderen Verzeichnisse sperren.
Wie blöd, dass ich das nicht einfach kurz testen kann...grrr :-)