forschungsportal.net

Beitrag von **bull** » 16.07.2004, 06:07

130.75.2.11 - - [16/Jul/2004:06:37:39 +0200] "GET / HTTP/1.0" 200 2640 - "-" "Mozilla/4.0 (compatible; MSIE 6.0; forschungsportal.net; dhennig@rrzn.uni-hannover.de)" "-"

-----

Habe dem Herren mal geschrieben und gefragt, warum sich sein Spiderlein nicht die Mühe macht, robots.txt zu holen. Irgendwie scheinen manche Universitäten und namentlich die deutschen zu glauben, daß, wenn sie sich als solche zu erkenn, alle Webmaster bereits Feuer und Flamme für Ihre programmiertechnischen Ergüsse sind und alles durchgehen lassen. Das Ding ist erstmal unter Beobachtung.

von **Anzeige von ABAKUS** »

Hochwertiger Linkaufbau bei ABAKUS:

Google-konformer Linkaufbau
nachhaltiges Ranking
Linkbuilding Angebote zu fairen Preisen
internationale Backlinks

Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Beitrag von **viggen** » 07.08.2004, 12:59

hallo bull,

und antwort bekommen?

mfg
viggen

Beitrag von **bull** » 07.08.2004, 13:18

Schon. Finde die e-mail aber grade nicht.

von **Anzeige von ABAKUS** »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:

einzigartige Texte
suchmaschinenoptimierte Inhalte
eine sinnvolle Content-Strategie
Beratung und Umsetzung

Jetzt anfragen: 0511 / 300325-0

Beitrag von **bull** » 07.08.2004, 13:28

War auf meinem Schrottlaptop.

------

Sehr geehrter Herr ...,

Mir ist der RFC zum Thema Robot-Exclusion durchaus bekannt.
Unser Robot setzt die dort enthaltenen Vorschläge um, die robot.txt wird vor der entsprechenden Seite angefragt. Daher war ich von Ihrer E-Mail sehr überrascht.
Es kann natürlich immer mal Fehler geben.
Können Sie mir die Details nennen? Auf welche URLs wurde zugegriffen ohne, dass die robots.txt ausgewertet wurde?

(...)

> 130.75.2.11 - - [16/Jul/2004:06:37:39 +0200] "GET / HTTP/1.0" 200 2640 - "-" "Mozilla/4.0 (compatible; MSIE 6.0; forschungsportal.net; dhennig@rrzn.uni-hannover.de)" "-"
>
> -----
>
> Sehr geehrter Herr ...,
>
> schön, daß Sie selbst einen Spider programmieren können. Schön auch, daß er sich wenigstens als solcher identifiziert. Weniger schön ist allerdings, daß er sich nicht an eine eventuell vorhandene robots.txt hält, weil er sie gar nicht erst holt. Sie sollten da wirklich noch nachbessern. Manche Seitenbesitzer reagieren da sehr allergisch. Wie Sie wissen ist robots.txt kein definitiver Standard, man sollte sich aber dennoch danach richten.
>
> Mit verbindlicher Begrüßung!
>

Danke für die Erinnerung. Ich werde dem Herren vielleicht mal schreiben. Hatte irgendwie zuviel zu tun in letzter Zeit. Besitze Links von einer Uni-Seite (reine Contentsite). Daher kam er zu mir.

Beitrag von **Elmar2** » 07.08.2004, 15:50

das ist ein Spider von metager.de. Ich weiß, daß die eigentlich keinen eigenen Spider haben, aber sie haben dieses Forschungsportal, wo Daten von Forschungsservern, Uniservern durchsuchbar in einer Datenbank aufbereitst sind.

Wundert mich schon, die Jungs vom Rechnzentrum der Uni Hannover sind eigentlich erwiesenermaßen keine Anfänger

Elmar

Beitrag von **bull** » 07.08.2004, 16:14

Ich glaube jetzt zu wissen woran es liegt. Von einer Univ.-Seite ist vermittelst 301er eine Umleitung auf eine meiner Seiten gesetzt. Der Bot hat nur "/" geholt, worauf ja umgeleitet wird. Er hält wohl die robots.txt der verlinkenden Seite für zutreffend, welche ja naturgemäß diese meine Seite nicht ausschließt.
Werde das dem Herren mitteilen.