Google spidert durch robots.txt gesperrte Seiten trotzdem!

Beitrag von **SirBerberitz** » 23.03.2005, 14:04

Hallo Freunde,

zum Verstaendniss: ich verwende einen osCommerce Shop, den ich inzwischen <meiner Meinung nach> auch ganz gut Dank diesem geilen Forum optimiren konnte

Nun habe ich aber folgendes Problem:

Oft wenn der Gurgel Bot auf meiner Seite ist, liest er <obwohl durch robots.txt gesperrt> Seiten wie unter anderem die login.php und all_products.php aus, die er nicht auslesen soll!

Das meiner Meinung nach Schlimme ist, dass er den Link zu diesen Dateien dann auch oft ausgibt und der Besucher nach Klicken auf das entsprechende Suchergebniss nicht auf der Seite zum eigentlich gesuchten Produkt ist, sondern z.B. auf der login.php und durch die Auswertung des Usertrackings schlussfolgere ich, das viele sich durch das "Melden Sie sich an" erschrecken lassen und gleich wieder meine Seite verlassen ...

So solls aber nicht sein!

Kann hier jemand helfen? Ich checks naemlich wirklich nicht

von **Anzeige von ABAKUS** »

Beitrag von **Andy.C** » 23.03.2005, 14:06

Hast du ganze Verzeichnisse Gesperrt oder nur Dateien?

Beitrag von **mariow** » 23.03.2005, 14:10

Geht es um die Domain aus deiner Signatur? In dem Fall:
Deine robots.txt ist nicht valide. Leere Zeilen dienen zur Trenneung von Einträgen, danach muss jeweils eine neue "User-agent"-Zeile folgen. Sollte also z.B. so aussehen

Code: Alles auswählen

User-agent&#58; *
Disallow&#58; /seite1
Disallow&#58; /seite2

User-agent&#58; larbin
Disallow&#58; /

(Genaugenommen sieht das Protokoll AFAIR am Ende der Datei eine Leerzeile vor, das ist aber nicht sonderlich wichtig).

In deinem Fall ist wenn ich richtig geguckt habe nur eine "User-agent" Zeile vorhanden, es genügt also wenn du sämtliche Leerzeilen entfernst.

Viele Grüße,
Mario Witte

von **Anzeige von ABAKUS** »

Beitrag von **SirBerberitz** » 23.03.2005, 14:18

Mann seid ihr schnell!!!

@ Andy.C:

beides.

@ mariow:

Also soll ich aus

Code: Alles auswählen


User-agent&#58; *

Disallow&#58; /all_products.php

Disallow&#58; /login.php

folgendes machen?

Code: Alles auswählen


User-agent&#58; *
Disallow&#58; /all_products.php
Disallow&#58; /login.php

Richtig?

Beitrag von **mariow** » 23.03.2005, 14:30

Exakt

Beitrag von **joell** » 23.03.2005, 14:34

ich habe auch mal irgendwo gelesen das max nur 100 zeilen in der robots.txt drinne sein dürfen ... da einige hacker schonmal probiert haben sinnlose befehle und schleifen einzubauen um die bots zu flashen.

du hast über 140 zeilen drinn ! - evtl. würde ich mir ne lösung per htaccess einfallen lassen ... oder benutze einfach wildcards

Beitrag von **SirBerberitz** » 23.03.2005, 14:42

Danke euch!

Ich werd alles beherzigen und spaeter meine Ergebnisse hier posten!

Noch ne Frage: wie bekomme ich jetzt die bereits gespiderten Seiten aus der Gurgel DB wieder raus?

Reicht es wenn die <jetzt geschuetzten> Seiten fuer den Bot als nicht mehr verfuegbar dargestellt werden + eine Menge Zeit und Durchhaltevermoegen von meiner Seite?

Beitrag von **SirBerberitz** » 23.03.2005, 14:45

joell hat geschrieben:ich habe auch mal irgendwo gelesen das max nur 100 zeilen in der robots.txt drinne sein dürfen ... da einige hacker schonmal probiert haben sinnlose befehle und schleifen einzubauen um die bots zu flashen.

du hast über 140 zeilen drinn ! - evtl. würde ich mir ne lösung per htaccess einfallen lassen ... oder benutze einfach wildcards

DONE

Danke!

Beitrag von **joell** » 23.03.2005, 14:46

inne meta-tags

<meta name="robots" content="NOINDEX,NOFOLLOW">

per wenns sowieso nen admin bereich iss am besten noch mit verzeichnisschutz (.htaccess)

links verschleiern ... am besten per javascript ... zu den seiten die du net im index haben willst ...

Beitrag von **mariow** » 23.03.2005, 15:01

Oder abwarten... irgendwann kurz nach dem nächsten Abholen der robots.txt sollte Google die Seiten auch rausnehmen.

@joell: Zumindestens die Spezifikation (https://www.robotstxt.org/wc/norobots.html) sagt nichts über eine maximale Größe der robots.txt. Hast du evtl. eine Quelle dazu?