Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Google spidert durch robots.txt gesperrte Seiten trotzdem!

Dieses Forum ist für Informationen über Google gedacht (Ausser PageRank!).
Neues Thema Antworten
SirBerberitz
PostRank 2
PostRank 2
Beiträge: 51
Registriert: 30.12.2004, 18:58

Beitrag von SirBerberitz » 23.03.2005, 14:04

Hallo Freunde,

zum Verstaendniss: ich verwende einen osCommerce Shop, den ich inzwischen <meiner Meinung nach> auch ganz gut Dank diesem geilen Forum optimiren konnte 8)

Nun habe ich aber folgendes Problem:

Oft wenn der Gurgel Bot auf meiner Seite ist, liest er <obwohl durch robots.txt gesperrt> Seiten wie unter anderem die login.php und all_products.php aus, die er nicht auslesen soll!

Das meiner Meinung nach Schlimme ist, dass er den Link zu diesen Dateien dann auch oft ausgibt und der Besucher nach Klicken auf das entsprechende Suchergebniss nicht auf der Seite zum eigentlich gesuchten Produkt ist, sondern z.B. auf der login.php und durch die Auswertung des Usertrackings schlussfolgere ich, das viele sich durch das "Melden Sie sich an" erschrecken lassen und gleich wieder meine Seite verlassen ...

So solls aber nicht sein! :2gunfire:

Kann hier jemand helfen? Ich checks naemlich wirklich nicht :(

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Andy.C
PostRank 5
PostRank 5
Beiträge: 249
Registriert: 22.03.2005, 04:01
Wohnort: Berlin

Beitrag von Andy.C » 23.03.2005, 14:06

Hast du ganze Verzeichnisse Gesperrt oder nur Dateien?

mariow
PostRank 4
PostRank 4
Beiträge: 177
Registriert: 08.03.2005, 12:05

Beitrag von mariow » 23.03.2005, 14:10

Geht es um die Domain aus deiner Signatur? In dem Fall:
Deine robots.txt ist nicht valide. Leere Zeilen dienen zur Trenneung von Einträgen, danach muss jeweils eine neue "User-agent"-Zeile folgen. Sollte also z.B. so aussehen

Code: Alles auswählen

User-agent&#58; *
Disallow&#58; /seite1
Disallow&#58; /seite2

User-agent&#58; larbin
Disallow&#58; /

(Genaugenommen sieht das Protokoll AFAIR am Ende der Datei eine Leerzeile vor, das ist aber nicht sonderlich wichtig).

In deinem Fall ist wenn ich richtig geguckt habe nur eine "User-agent" Zeile vorhanden, es genügt also wenn du sämtliche Leerzeilen entfernst.

Viele Grüße,
Mario Witte

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

SirBerberitz
PostRank 2
PostRank 2
Beiträge: 51
Registriert: 30.12.2004, 18:58

Beitrag von SirBerberitz » 23.03.2005, 14:18

Mann seid ihr schnell!!!

@ Andy.C:

beides.

@ mariow:

Also soll ich aus

Code: Alles auswählen


User-agent&#58; *

Disallow&#58; /all_products.php

Disallow&#58; /login.php

folgendes machen?

Code: Alles auswählen


User-agent&#58; *
Disallow&#58; /all_products.php
Disallow&#58; /login.php

Richtig?

mariow
PostRank 4
PostRank 4
Beiträge: 177
Registriert: 08.03.2005, 12:05

Beitrag von mariow » 23.03.2005, 14:30

Exakt :)

joell
PostRank 3
PostRank 3
Beiträge: 82
Registriert: 20.01.2005, 12:50
Wohnort: Hannover

Beitrag von joell » 23.03.2005, 14:34

ich habe auch mal irgendwo gelesen das max nur 100 zeilen in der robots.txt drinne sein dürfen ... da einige hacker schonmal probiert haben sinnlose befehle und schleifen einzubauen um die bots zu flashen.

du hast über 140 zeilen drinn ! - evtl. würde ich mir ne lösung per htaccess einfallen lassen ... oder benutze einfach wildcards

SirBerberitz
PostRank 2
PostRank 2
Beiträge: 51
Registriert: 30.12.2004, 18:58

Beitrag von SirBerberitz » 23.03.2005, 14:42

Danke euch!

Ich werd alles beherzigen und spaeter meine Ergebnisse hier posten!

Noch ne Frage: wie bekomme ich jetzt die bereits gespiderten Seiten aus der Gurgel DB wieder raus?

Reicht es wenn die <jetzt geschuetzten> Seiten fuer den Bot als nicht mehr verfuegbar dargestellt werden + eine Menge Zeit und Durchhaltevermoegen von meiner Seite?

SirBerberitz
PostRank 2
PostRank 2
Beiträge: 51
Registriert: 30.12.2004, 18:58

Beitrag von SirBerberitz » 23.03.2005, 14:45

joell hat geschrieben:ich habe auch mal irgendwo gelesen das max nur 100 zeilen in der robots.txt drinne sein dürfen ... da einige hacker schonmal probiert haben sinnlose befehle und schleifen einzubauen um die bots zu flashen.

du hast über 140 zeilen drinn ! - evtl. würde ich mir ne lösung per htaccess einfallen lassen ... oder benutze einfach wildcards
DONE :lol:

Danke!

joell
PostRank 3
PostRank 3
Beiträge: 82
Registriert: 20.01.2005, 12:50
Wohnort: Hannover

Beitrag von joell » 23.03.2005, 14:46

inne meta-tags

<meta name="robots" content="NOINDEX,NOFOLLOW">

per wenns sowieso nen admin bereich iss am besten noch mit verzeichnisschutz (.htaccess)

links verschleiern ... am besten per javascript ... zu den seiten die du net im index haben willst ...

mariow
PostRank 4
PostRank 4
Beiträge: 177
Registriert: 08.03.2005, 12:05

Beitrag von mariow » 23.03.2005, 15:01

Oder abwarten... irgendwann kurz nach dem nächsten Abholen der robots.txt sollte Google die Seiten auch rausnehmen.

@joell: Zumindestens die Spezifikation (https://www.robotstxt.org/wc/norobots.html) sagt nichts über eine maximale Größe der robots.txt. Hast du evtl. eine Quelle dazu?

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag