Seiten gespidert auf die kein Link weist

Beitrag von **AskeT** » 10.01.2005, 15:10

Hallo,

Ich hätte da mal eine Verständnisfrage:

Auf dem Server liegt ein Ordner, in dem sich einige zig HTML-Seiten und PDFs befinden. Die Seiten und PDFs sind bis auf eine von nirgendwo aus verlinkt.

Nun sollte ein Spider diese eine Seite durch die Linkverfolgung finden und indexieren, die übrigen Seiten aber nicht. Trotzdem tauchen jetzt die Seiten und PDFs aus diesem Ordner im Googleindex auf.

Wie ist das möglich? Eine nicht verlinkte Seite kann doch angeblich nicht gefunden werden. Ist es möglich, dass der Spider durch den Link auf die eine Seite den ganzen Ordnerinhalt spidert und indiziert?

Gruß
AskeT

von **Anzeige von ABAKUS** »

Beitrag von **Jörg** » 10.01.2005, 15:24

Zeigt die Index-Datei des Ordners dessen Inhalt an?

Beitrag von **Pompom** » 10.01.2005, 15:25

Das kann nur passieren, wenn doch (irgendwo) Links auf die anderen Seiten lagen
oder dein Webserver so konfiguriert ist, dass wenn kein Startdokument (normalerweise index.html) im Ordner ist, der gesamte Ordnerinhalt angezeigt wird.

Gerüchteweise kann auch die Google Toolbar schuld sein, falls installiert, und die Dokumente aufgerufen wurden,

von **Anzeige von ABAKUS** »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002

persönliche Betreuung
individuelle Beratung
kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.

Beitrag von **AskeT** » 10.01.2005, 15:49

Es befindet sich kein Startdokument im Ordner, der Server zeigt bei Zugriff auf den Ordner ein 403 Forbidden an. Ich glaube so sollte dass auch sein. Die robots.txt sperrt den Ordner allerdings nicht und in den HTML-Seiten ist "robots=index, follow" gesetzt.

Pompom hat geschrieben:oder dein Webserver so konfiguriert ist, dass wenn kein Startdokument (normalerweise index.html) im Ordner ist, der gesamte Ordnerinhalt angezeigt wird.

Wie macht man das? Geht das mittels .htaccess?

Pompom hat geschrieben:Gerüchteweise kann auch die Google Toolbar schuld, falls installiert, und die Dokumente aufgerufen wurden

Ist installiert. Und die Dokus wurden wahrscheinlich auch damit schon mal aufgerufen. Und das ergibt dann für Google einen Link? Oder wie soll ich das verstehen?

Gruß
AskeT

Beitrag von **goldie** » 10.01.2005, 16:58

Pompom hat folgendes geschrieben::
Gerüchteweise kann auch die Google Toolbar schuld, falls installiert, und die Dokumente aufgerufen wurden

Ist installiert. Und die Dokus wurden wahrscheinlich auch damit schon mal aufgerufen. Und das ergibt dann für Google einen Link? Oder wie soll ich das verstehen?

ist höchstwahrscheinlich der grund.
hatten wir auch schon des öfteren festgestellt

als link werden die daten die über die toolbar miteinfliessen wohl nicht gelten, aber es ist der grund des spiderns. google hat es sich zur aufgabe und zum ziel gemacht, möglichst ALLES zu indexiern und somit den größten index zu haben. wenn man eine seite aufruft, die nicht verlinkt ist, dann liefert sie, soweit es sie gibt ein OK zurück. das merkt auch die toolbar und schickt die bots los. ist die seite interessant, werden sie vielleicht auch in den index aufgenommen. ich gehe nicht davon aus, dass du das verzeichnis für die bots gesperrt hast, warum auch ist ja nicht verlinkt...
also ist es wohl sinnvoll künftig entwicklungsebenen per robots.txt zu sperren.

gruß
martin

Beitrag von **AskeT** » 10.01.2005, 17:05

Hallo Martin,

goldie hat geschrieben:ist definitiv der grund.

Ich brauche also nicht verlinkte Seiten lediglich per Google-Toolbar aufrufen, damit Google diese spidert und indiziert?

Habe ich das richtig verstanden? Dann könnte man die Toolbar ja auch als Werkzeug nutzen, um den Spidern das auffinden tief in der Struktur versteckter und weniger gut verlinker Seiten zu erleichtern...

Das gäbe der Toolbar ja einen völlig neuen Wert.

Gruß
AskeT

Beitrag von **goldie** » 10.01.2005, 17:11

habe mein posting grad editiert...

definitiv ist natürlich bei google GAR NIX.

Dann könnte man die Toolbar ja auch als Werkzeug nutzen, um den Spidern das auffinden tief in der Struktur versteckter und weniger gut verlinker Seiten zu erleichtern...

das spidern alleine ist ja noch kein garant dafür, dass die seite in den index wandert

wie schon gesagt, ich wollts auch nicht glauben, aber wir hatten das schon mehrmals...

Beitrag von **AskeT** » 10.01.2005, 17:47

Hallo Martin,

goldie hat geschrieben:also ist es wohl sinnvoll künftig entwicklungsebenen per robots.txt zu sperren.

In diesem Falle handelt es sich um keine Entwicklungsebene. Es ist auch nicht weiter schlimm, dass die Seiten indiziert wurden. Ich wunderte mich halt nur darüber.

Ich werde das mit der Toolbar mal in einem "Feldversuch" abprüfen.

Gruß nach Berchtesgaden
AskeT

Beitrag von **Pompom** » 10.01.2005, 18:02

Wie macht man das? Geht das mittels .htaccess?

Dazu muss beim Apache 1.x das mod_autoindex Modul geladen sein und die Option

IndexOptions FancyIndexing

gesetzt sein. Näheres gibt es hier: https://httpsd.apache.org/docs/mod/mod_autoindex.html

Die Toolbar übermittelt jede aufgerufene Seite an Google.
Seiten, die aufgerufen werden, werden auch indiziert, obwohl kein Link gesetzt ist.
Sind keine Links gesetzt, verschwinden sie scheinbar bald wieder aus dem Index.

Dann könnte man die Toolbar ja auch als Werkzeug nutzen, um den Spidern das auffinden tief in der Struktur versteckter und weniger gut verlinker Seiten zu erleichtern...

Richtig.

Beitrag von **AskeT** » 10.01.2005, 18:05

@Pompom: Danke für die Info!

AskeT

Beitrag von **AskeT** » 10.01.2005, 18:09

Spricht eigentlich etwas dagegen, in jeden Ordner eine Index.html mit einer Ordnerübersicht - bestehend aus Links zum Ordnerinhalt - zu legen? Oder gibts dafür wieder Abstrafungen seitens Google?

AskeT

Beitrag von **Pompom** » 10.01.2005, 18:40

AskeT, dann solltest Du doch mal mit

IndexOptions FancyIndexing

arbeiten...

Google ist das recht egal.

Beitrag von **tron** » 14.01.2005, 00:11

Gerüchte.. nach Gerüchten könnte es auch der MediapartnersBot (Bot für Adsense, Opera schleift den hinter sich her manchmal) gewesen sein.