Seite 1 von 1
Google spidert durch robots.txt gesperrte Seiten trotzdem!
Verfasst: 23.03.2005, 14:04
von SirBerberitz
Hallo Freunde,
zum Verstaendniss: ich verwende einen osCommerce Shop, den ich inzwischen <meiner Meinung nach> auch ganz gut Dank diesem geilen Forum optimiren konnte
Nun habe ich aber folgendes Problem:
Oft wenn der Gurgel Bot auf meiner Seite ist, liest er <obwohl durch robots.txt gesperrt> Seiten wie unter anderem die login.php und all_products.php aus, die er nicht auslesen soll!
Das meiner Meinung nach Schlimme ist, dass er den Link zu diesen Dateien dann auch oft ausgibt und der Besucher nach Klicken auf das entsprechende Suchergebniss nicht auf der Seite zum eigentlich gesuchten Produkt ist, sondern z.B. auf der login.php und durch die Auswertung des Usertrackings schlussfolgere ich, das viele sich durch das "Melden Sie sich an" erschrecken lassen und gleich wieder meine Seite verlassen ...
So solls aber nicht sein!
Kann hier jemand helfen? Ich checks naemlich wirklich nicht

Verfasst:
von
Hochwertiger Linkaufbau bei ABAKUS:
- Google-konformer Linkaufbau
- nachhaltiges Ranking
- Linkbuilding Angebote zu fairen Preisen
- internationale Backlinks
Wir bieten
Beratung und
Umsetzung.
Jetzt anfragen:
0511 / 300325-0
Google spidert durch robots.txt gesperrte Seiten trotzdem!
Verfasst: 23.03.2005, 14:06
von Andy.C
Hast du ganze Verzeichnisse Gesperrt oder nur Dateien?
Google spidert durch robots.txt gesperrte Seiten trotzdem!
Verfasst: 23.03.2005, 14:10
von mariow
Geht es um die Domain aus deiner Signatur? In dem Fall:
Deine robots.txt ist nicht valide. Leere Zeilen dienen zur Trenneung von Einträgen, danach muss jeweils eine neue "User-agent"-Zeile folgen. Sollte also z.B. so aussehen
Code: Alles auswählen
User-agent: *
Disallow: /seite1
Disallow: /seite2
User-agent: larbin
Disallow: /
(Genaugenommen sieht das Protokoll AFAIR am Ende der Datei eine Leerzeile vor, das ist aber nicht sonderlich wichtig).
In deinem Fall ist wenn ich richtig geguckt habe nur eine "User-agent" Zeile vorhanden, es genügt also wenn du sämtliche Leerzeilen entfernst.
Viele Grüße,
Mario Witte
Verfasst: 23.03.2005, 14:18
von SirBerberitz
Mann seid ihr schnell!!!
@ Andy.C:
beides.
@ mariow:
Also soll ich aus
Code: Alles auswählen
User-agent: *
Disallow: /all_products.php
Disallow: /login.php
folgendes machen?
Code: Alles auswählen
User-agent: *
Disallow: /all_products.php
Disallow: /login.php
Richtig?
Google spidert durch robots.txt gesperrte Seiten trotzdem!
Verfasst: 23.03.2005, 14:30
von mariow
Exakt

Google spidert durch robots.txt gesperrte Seiten trotzdem!
Verfasst: 23.03.2005, 14:34
von joell
ich habe auch mal irgendwo gelesen das max nur 100 zeilen in der robots.txt drinne sein dürfen ... da einige hacker schonmal probiert haben sinnlose befehle und schleifen einzubauen um die bots zu flashen.
du hast über 140 zeilen drinn ! - evtl. würde ich mir ne lösung per htaccess einfallen lassen ... oder benutze einfach wildcards
Google spidert durch robots.txt gesperrte Seiten trotzdem!
Verfasst: 23.03.2005, 14:42
von SirBerberitz
Danke euch!
Ich werd alles beherzigen und spaeter meine Ergebnisse hier posten!
Noch ne Frage: wie bekomme ich jetzt die bereits gespiderten Seiten aus der Gurgel DB wieder raus?
Reicht es wenn die <jetzt geschuetzten> Seiten fuer den Bot als nicht mehr verfuegbar dargestellt werden + eine Menge Zeit und Durchhaltevermoegen von meiner Seite?
Re: Google spidert durch robots.txt gesperrte Seiten trotzde
Verfasst: 23.03.2005, 14:45
von SirBerberitz
joell hat geschrieben:ich habe auch mal irgendwo gelesen das max nur 100 zeilen in der robots.txt drinne sein dürfen ... da einige hacker schonmal probiert haben sinnlose befehle und schleifen einzubauen um die bots zu flashen.
du hast über 140 zeilen drinn ! - evtl. würde ich mir ne lösung per htaccess einfallen lassen ... oder benutze einfach wildcards
DONE
Danke!
Google spidert durch robots.txt gesperrte Seiten trotzdem!
Verfasst: 23.03.2005, 14:46
von joell
inne meta-tags
<meta name="robots" content="NOINDEX,NOFOLLOW">
per wenns sowieso nen admin bereich iss am besten noch mit verzeichnisschutz (.htaccess)
links verschleiern ... am besten per javascript ... zu den seiten die du net im index haben willst ...
Google spidert durch robots.txt gesperrte Seiten trotzdem!
Verfasst: 23.03.2005, 15:01
von mariow
Oder abwarten... irgendwann kurz nach dem nächsten Abholen der robots.txt sollte Google die Seiten auch rausnehmen.
@joell: Zumindestens die Spezifikation (
https://www.robotstxt.org/wc/norobots.html) sagt nichts über eine maximale Größe der robots.txt. Hast du evtl. eine Quelle dazu?