Seite 1 von 2
Google missachtet robots.txt?
Verfasst: 17.12.2004, 19:56
von JOO
Kann mal jemand überprüfen ob das so stimmt, weil Google beachtet dies anscheinend nicht:
robots.txt
User-agent: *
Disallow: /druck.php
Disallow: /forum/
Disallow: /index.php
Danke...
Verfasst:
von
Hochwertiger Linkaufbau bei ABAKUS:
- Google-konformer Linkaufbau
- nachhaltiges Ranking
- Linkbuilding Angebote zu fairen Preisen
- internationale Backlinks
Wir bieten
Beratung und
Umsetzung.
Jetzt anfragen:
0511 / 300325-0
Verfasst: 17.12.2004, 20:02
von firestarter
du kannst nur verzeichnisse ausschlissen und keine einzelnen Dateien.
Verfasst: 17.12.2004, 20:05
von JOO
firestarter hat geschrieben:du kannst nur verzeichnisse ausschlissen und keine einzelnen Dateien.
Achso ok, habe ich gar nicht gewusst

.
Danke
JOO
Verfasst:
von
SEO Consulting bei
ABAKUS Internet Marketing Erfahrung seit 2002
- persönliche Betreuung
- individuelle Beratung
- kompetente Umsetzung
Jetzt anfragen:
0511 / 300325-0.
Verfasst: 17.12.2004, 20:06
von bull
du kannst nur verzeichnisse ausschlissen und keine einzelnen Dateien.
Das ist m.E. nicht ganz zutreffend, Frank.
https://www.robotstxt.org/wc/exclusion-admin.html
https://www.google.de/webmasters/faq.html
Verfasst: 17.12.2004, 21:11
von Jojo
In Bezug auf Verzeichnisse hatte ich bisher keine Probleme mit dem Ausschliessen in der robots.txt.
Auf das Ausschliessen von Dateien habe sicherheitshalber verzichtet, da ich hier im Forum gelesen hatte, dass das nicht funktioniert.
Verfasst: 17.12.2004, 21:13
von Garfield
Das funktioniert bei mir mit Google insoweit, als zwar die Seiten im Index sind, aber ohne Beschreibung und Inhalt, also nur Dateiname.
Google weiß also nur, daß es die ausgeschlossene Seite gibt.
Verfasst: 17.12.2004, 21:15
von Fox Mulder
Jojo hat geschrieben:Auf das Ausschliessen von Dateien habe sicherheitshalber verzichtet, da ich hier im Forum gelesen hatte, dass das nicht funktioniert.
hat G doch x-fach selber in der robots.txt :
https://www.google.de/robots.txt
Gruss
Verfasst: 17.12.2004, 21:31
von bull
Das funktioniert bei mir mit Google insoweit, als zwar die Seiten im Index sind, aber ohne Beschreibung und Inhalt, also nur Dateiname.
Völlig normales Verhalten. URL ist im Index, aber nicht gecrawlt.
Verfasst: 17.12.2004, 22:11
von firestarter
hmmm, ok
hatte ich mal mit einem Forum und der members.php versucht, hatte leider nicht funktioniert.
Beschreibung war zwar keine da allerdings wurden die profile als Backlink bei anderen angezeigt.
Seltsam -naja egal.
Gruss Frank
Verfasst: 17.12.2004, 23:06
von Mario670
Also in den xt-commerce Shops klappt das nicht, da spidert er die Dateien, trotz der Robots.txt
Verfasst: 18.12.2004, 13:37
von dexter
ich benutze die robots.txt seit ein paar monaten um dynamische urls (präfix z.b. "/index.htm?") auszuschliessen. das klappt wunderbar, der googlebot spidert nur noch die "statischen" links. die urls mit parametern sind zwar noch im index (auch meist ohne text), aber ich vermute nur noch als überbleibsel von vorher. ich hoffe, daß diese nach und nach automatisch rausfliegen.
@mario670: check doch mal, wann/ob google sich die robots.txt zuletzt geholt hat -- evtl. falsche zugriffsrechte?
Verfasst: 18.12.2004, 14:12
von bugscout
moin moin,
schönes beispiel für robots.txt und url-hijacking,
da habe ich doch glatt meine testdomain gekapert.
https://www.google.de/search?q=allinurl ... 1&filter=0
trotz
Disallow: /cgi-bin/
Disallow: /cgi-bin/outbound.pl?*$
manchmal klappt es und manchmal klapperts es nur.
werde mein redirect-script jetzt mal so umbauen,
das ne abfrage nach suchmaschine reinkommt.
wo dann der text "verpisst euch hier" ausgegeben wird,
mit link auf die robots.txt.
grüsse
Verfasst: 18.12.2004, 14:48
von dexter
bugscout, dateimuster (*) sind kein offizieller bestandteil der exclusion-richtlinien, und das $-zeichen ist ein regex-code. evtl. verwirrst du den bot dadurch. besser nur den präfix einsetzen -- bzw. rausnehmen, der erste disallow ist eh ein catchall für das cgi-bin.
Verfasst: 18.12.2004, 15:05
von bugscout
moin moin,
nur cgi-bin bin ich schon kräftig mit auf die schnauze gefallen in bezug auf url-hijacking.
das funktioniert bei anderen dommains eigentlich ganz gut nach besagtem muster.
vielleicht hat der bot sich ja auch einfach irgendwo durch die hintertür ohne
robots.txt auf den server geschlichen.
ich teste noch in bezug auf sichere lösung.
mit oder ohne *,
mit oder ohne $
grüsse
Verfasst: 18.12.2004, 17:08
von schorsch
ja sag mal bescheid wenn du irgendwelche ergebnisse hast. was ich auch empfehlen würde, wäre gleichzeitig noch per java script auf die outbound.pl datei zu linken. hält bestimmt auch noch a weng was ab. die frage ist nur wie ich es am besten mache, dass der bot das javascript nicht verfolgt.
gruss
schorsch