Seite 1 von 1

Google spidert durch robots.txt gesperrte Seiten trotzdem!

Verfasst: 23.03.2005, 14:04
von SirBerberitz
Hallo Freunde,

zum Verstaendniss: ich verwende einen osCommerce Shop, den ich inzwischen <meiner Meinung nach> auch ganz gut Dank diesem geilen Forum optimiren konnte 8)

Nun habe ich aber folgendes Problem:

Oft wenn der Gurgel Bot auf meiner Seite ist, liest er <obwohl durch robots.txt gesperrt> Seiten wie unter anderem die login.php und all_products.php aus, die er nicht auslesen soll!

Das meiner Meinung nach Schlimme ist, dass er den Link zu diesen Dateien dann auch oft ausgibt und der Besucher nach Klicken auf das entsprechende Suchergebniss nicht auf der Seite zum eigentlich gesuchten Produkt ist, sondern z.B. auf der login.php und durch die Auswertung des Usertrackings schlussfolgere ich, das viele sich durch das "Melden Sie sich an" erschrecken lassen und gleich wieder meine Seite verlassen ...

So solls aber nicht sein! :2gunfire:

Kann hier jemand helfen? Ich checks naemlich wirklich nicht :(

Verfasst:
von

Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Google spidert durch robots.txt gesperrte Seiten trotzdem!

Verfasst: 23.03.2005, 14:06
von Andy.C
Hast du ganze Verzeichnisse Gesperrt oder nur Dateien?

Google spidert durch robots.txt gesperrte Seiten trotzdem!

Verfasst: 23.03.2005, 14:10
von mariow
Geht es um die Domain aus deiner Signatur? In dem Fall:
Deine robots.txt ist nicht valide. Leere Zeilen dienen zur Trenneung von Einträgen, danach muss jeweils eine neue "User-agent"-Zeile folgen. Sollte also z.B. so aussehen

Code: Alles auswählen

User-agent&#58; *
Disallow&#58; /seite1
Disallow&#58; /seite2

User-agent&#58; larbin
Disallow&#58; /

(Genaugenommen sieht das Protokoll AFAIR am Ende der Datei eine Leerzeile vor, das ist aber nicht sonderlich wichtig).

In deinem Fall ist wenn ich richtig geguckt habe nur eine "User-agent" Zeile vorhanden, es genügt also wenn du sämtliche Leerzeilen entfernst.

Viele Grüße,
Mario Witte

Verfasst:
von

Verfasst: 23.03.2005, 14:18
von SirBerberitz
Mann seid ihr schnell!!!

@ Andy.C:

beides.

@ mariow:

Also soll ich aus

Code: Alles auswählen


User-agent&#58; *

Disallow&#58; /all_products.php

Disallow&#58; /login.php

folgendes machen?

Code: Alles auswählen


User-agent&#58; *
Disallow&#58; /all_products.php
Disallow&#58; /login.php

Richtig?

Google spidert durch robots.txt gesperrte Seiten trotzdem!

Verfasst: 23.03.2005, 14:30
von mariow
Exakt :)

Google spidert durch robots.txt gesperrte Seiten trotzdem!

Verfasst: 23.03.2005, 14:34
von joell
ich habe auch mal irgendwo gelesen das max nur 100 zeilen in der robots.txt drinne sein dürfen ... da einige hacker schonmal probiert haben sinnlose befehle und schleifen einzubauen um die bots zu flashen.

du hast über 140 zeilen drinn ! - evtl. würde ich mir ne lösung per htaccess einfallen lassen ... oder benutze einfach wildcards

Google spidert durch robots.txt gesperrte Seiten trotzdem!

Verfasst: 23.03.2005, 14:42
von SirBerberitz
Danke euch!

Ich werd alles beherzigen und spaeter meine Ergebnisse hier posten!

Noch ne Frage: wie bekomme ich jetzt die bereits gespiderten Seiten aus der Gurgel DB wieder raus?

Reicht es wenn die <jetzt geschuetzten> Seiten fuer den Bot als nicht mehr verfuegbar dargestellt werden + eine Menge Zeit und Durchhaltevermoegen von meiner Seite?

Re: Google spidert durch robots.txt gesperrte Seiten trotzde

Verfasst: 23.03.2005, 14:45
von SirBerberitz
joell hat geschrieben:ich habe auch mal irgendwo gelesen das max nur 100 zeilen in der robots.txt drinne sein dürfen ... da einige hacker schonmal probiert haben sinnlose befehle und schleifen einzubauen um die bots zu flashen.

du hast über 140 zeilen drinn ! - evtl. würde ich mir ne lösung per htaccess einfallen lassen ... oder benutze einfach wildcards
DONE :lol:

Danke!

Google spidert durch robots.txt gesperrte Seiten trotzdem!

Verfasst: 23.03.2005, 14:46
von joell
inne meta-tags

<meta name="robots" content="NOINDEX,NOFOLLOW">

per wenns sowieso nen admin bereich iss am besten noch mit verzeichnisschutz (.htaccess)

links verschleiern ... am besten per javascript ... zu den seiten die du net im index haben willst ...

Google spidert durch robots.txt gesperrte Seiten trotzdem!

Verfasst: 23.03.2005, 15:01
von mariow
Oder abwarten... irgendwann kurz nach dem nächsten Abholen der robots.txt sollte Google die Seiten auch rausnehmen.

@joell: Zumindestens die Spezifikation (https://www.robotstxt.org/wc/norobots.html) sagt nichts über eine maximale Größe der robots.txt. Hast du evtl. eine Quelle dazu?