ABAKUS

Verfasst: **17.12.2004, 19:56**

Kann mal jemand überprüfen ob das so stimmt, weil Google beachtet dies anscheinend nicht:

robots.txt
User-agent: *
Disallow: /druck.php
Disallow: /forum/
Disallow: /index.php

Danke...

Verfasst: **17.12.2004, 20:02**

du kannst nur verzeichnisse ausschlissen und keine einzelnen Dateien.

Verfasst: **17.12.2004, 20:05**

firestarter hat geschrieben:du kannst nur verzeichnisse ausschlissen und keine einzelnen Dateien.

Achso ok, habe ich gar nicht gewusst

.

Danke
JOO

Verfasst: **17.12.2004, 20:06**

du kannst nur verzeichnisse ausschlissen und keine einzelnen Dateien.

Das ist m.E. nicht ganz zutreffend, Frank.
https://www.robotstxt.org/wc/exclusion-admin.html
https://www.google.de/webmasters/faq.html

Verfasst: **17.12.2004, 21:11**

In Bezug auf Verzeichnisse hatte ich bisher keine Probleme mit dem Ausschliessen in der robots.txt.

Auf das Ausschliessen von Dateien habe sicherheitshalber verzichtet, da ich hier im Forum gelesen hatte, dass das nicht funktioniert.

Verfasst: **17.12.2004, 21:13**

Das funktioniert bei mir mit Google insoweit, als zwar die Seiten im Index sind, aber ohne Beschreibung und Inhalt, also nur Dateiname.

Google weiß also nur, daß es die ausgeschlossene Seite gibt.

Verfasst: **17.12.2004, 21:15**

Jojo hat geschrieben:Auf das Ausschliessen von Dateien habe sicherheitshalber verzichtet, da ich hier im Forum gelesen hatte, dass das nicht funktioniert.

hat G doch x-fach selber in der robots.txt :

https://www.google.de/robots.txt

Gruss

Verfasst: **17.12.2004, 21:31**

Das funktioniert bei mir mit Google insoweit, als zwar die Seiten im Index sind, aber ohne Beschreibung und Inhalt, also nur Dateiname.

Völlig normales Verhalten. URL ist im Index, aber nicht gecrawlt.

Verfasst: **17.12.2004, 22:11**

hmmm, ok

hatte ich mal mit einem Forum und der members.php versucht, hatte leider nicht funktioniert.

Beschreibung war zwar keine da allerdings wurden die profile als Backlink bei anderen angezeigt.

Seltsam -naja egal.

Gruss Frank

Verfasst: **17.12.2004, 23:06**

Also in den xt-commerce Shops klappt das nicht, da spidert er die Dateien, trotz der Robots.txt

Verfasst: **18.12.2004, 13:37**

ich benutze die robots.txt seit ein paar monaten um dynamische urls (präfix z.b. "/index.htm?") auszuschliessen. das klappt wunderbar, der googlebot spidert nur noch die "statischen" links. die urls mit parametern sind zwar noch im index (auch meist ohne text), aber ich vermute nur noch als überbleibsel von vorher. ich hoffe, daß diese nach und nach automatisch rausfliegen.

@mario670: check doch mal, wann/ob google sich die robots.txt zuletzt geholt hat -- evtl. falsche zugriffsrechte?

Verfasst: **18.12.2004, 14:12**

moin moin,

schönes beispiel für robots.txt und url-hijacking,

da habe ich doch glatt meine testdomain gekapert.

https://www.google.de/search?q=allinurl ... 1&filter=0

trotz

Disallow: /cgi-bin/
Disallow: /cgi-bin/outbound.pl?*$

manchmal klappt es und manchmal klapperts es nur.

werde mein redirect-script jetzt mal so umbauen,
das ne abfrage nach suchmaschine reinkommt.

wo dann der text "verpisst euch hier" ausgegeben wird,
mit link auf die robots.txt.

grüsse

Verfasst: **18.12.2004, 14:48**

bugscout, dateimuster (*) sind kein offizieller bestandteil der exclusion-richtlinien, und das $-zeichen ist ein regex-code. evtl. verwirrst du den bot dadurch. besser nur den präfix einsetzen -- bzw. rausnehmen, der erste disallow ist eh ein catchall für das cgi-bin.

Verfasst: **18.12.2004, 15:05**

moin moin,

nur cgi-bin bin ich schon kräftig mit auf die schnauze gefallen in bezug auf url-hijacking.

das funktioniert bei anderen dommains eigentlich ganz gut nach besagtem muster.

vielleicht hat der bot sich ja auch einfach irgendwo durch die hintertür ohne
robots.txt auf den server geschlichen.

ich teste noch in bezug auf sichere lösung.
mit oder ohne *,
mit oder ohne $

grüsse

Verfasst: **18.12.2004, 17:08**

ja sag mal bescheid wenn du irgendwelche ergebnisse hast. was ich auch empfehlen würde, wäre gleichzeitig noch per java script auf die outbound.pl datei zu linken. hält bestimmt auch noch a weng was ab. die frage ist nur wie ich es am besten mache, dass der bot das javascript nicht verfolgt.

gruss

schorsch

ABAKUS

Google missachtet robots.txt?

Google missachtet robots.txt?