robots.txt

Beitrag von **workershop** » 19.01.2005, 00:42

So sollte doch eine Robots.txt auschauen:

User-agent: *
Disallow: /irgendetwas.html

Jetzt überlege ich mir aber gerade, das eine Domain ja meistens so ausschaut:

www.domain.de/

also sieht der Robots Befehl ja so aus: www.domain.de//irgendetwas.html

Sollten da nicht alle, wo die Domain ein / am Ende hat die Robots.txt so haben?:
User-agent: *
Disallow: irgendetwas.html

Sonst gibt es doch den robots.txt Ausschluss Link gar nicht. Aber ich lass mich gern verbessern.

von **Anzeige von ABAKUS** »

Hochwertiger Linkaufbau bei ABAKUS:

Google-konformer Linkaufbau
nachhaltiges Ranking
Linkbuilding Angebote zu fairen Preisen
internationale Backlinks

Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Beitrag von **fool** » 19.01.2005, 13:16

hallo workershop,

so sollte das ausschauen:

User-agent: *
Disallow: / irgendetwas.html (beachte das Leerzeichen hinter dem /)

und wenn du den / ganz wegläßt,
dann guck dir alle die threads an, von denen,
die Probleme mit ihrer robots.txt haben, weil sie
den nicht reinschreiben.

zum Thema noch der Link:

https://www.robotstxt.org/wc/norobots.html

da findest wahrscheinlich mehr als du wissen wolltest

gruß
fool

Beitrag von **Wuppi** » 24.01.2005, 21:28

Hi

ich hab z.b.
Disallow: /forums.html

drin stehen - ohne leerschritt - und wundere (ärgere!) mich, das trotzdem gespidert wird (doppelter Content) ... wenn ich also nen leerschritt dazwischen setze, akzeptiert das auch google und ignoriert diese datei???

Wie schauts mit Verzeichnissen aus?
Disallow: /banner/ <- meine Variante
Bin aber der Meinung das ich keiner meiner "verbotenen" Verzeichnisse im Index zu finden ist?

Gruß
Wuppi

von **Anzeige von ABAKUS** »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:

einzigartige Texte
suchmaschinenoptimierte Inhalte
eine sinnvolle Content-Strategie
Beratung und Umsetzung

Jetzt anfragen: 0511 / 300325-0

Beitrag von **Pompom** » 24.01.2005, 22:33

Disallow: / irgendetwas.html (beachte das Leerzeichen hinter dem /)

Ich habe Null Ahnung, warum dort ein Leerzeichen sein sollte.

Deine robots.txt sollte so aussehen:

User-agent: *
Disallow: /irgendetwas.html
# das ist eine Kommentarzeile, falls benötigt.
# /irgendetwas.html ist die Datei irgendetwas.html im Root des Web.

Disallow: /verbotenesverzeichnis/
# das ist das verbotene Verzeichnis, z.B.
Disallow: /cgi-bin/
Disallow: /admin/meinprogramm.php
Allow: /bloederbot/nimmdiedateiauch.php

Beitrag von **Pompom** » 24.01.2005, 22:35

Noch eine kleine Anmerkung:
Es gibt eigentlich kein Allow:, jedoch gibt es einige, die behaupten, daß einige Bots (undokumentiert) das entsprechende Dokument indizieren.

Beitrag von **LinkPop** » 24.01.2005, 23:32

workershop hat geschrieben:Jetzt überlege ich mir aber gerade, das eine Domain ja meistens so ausschaut:

www.domain.de/

also sieht der Robots Befehl ja so aus: www.domain.de//irgendetwas.html

Sollten da nicht alle, wo die Domain ein / am Ende hat die Robots.txt so haben?:

Jede Software wird aus dem URL den Host ermitteln.

z.B. https://www.domain.de/ -> Host: www.domain.de

Danach werden Host und robots.txt-Anweisung zusammengesetzt:

www.domain.de/irgendetwas.html

Beitrag von **Wuppi** » 25.01.2005, 12:37

Pompom hat geschrieben:
Disallow: / irgendetwas.html (beachte das Leerzeichen hinter dem /)

Ich habe Null Ahnung, warum dort ein Leerzeichen sein sollte.

Deine robots.txt sollte so aussehen:

User-agent: *
Disallow: /irgendetwas.html
# das ist eine Kommentarzeile, falls benötigt.
# /irgendetwas.html ist die Datei irgendetwas.html im Root des Web.

Disallow: /verbotenesverzeichnis/
# das ist das verbotene Verzeichnis, z.B.
Disallow: /cgi-bin/
Disallow: /admin/meinprogramm.php
Allow: /bloederbot/nimmdiedateiauch.php

Naja nur Disallow: /DATEI.html <- interessiert google (und die anderen auch) NULL ... hab sämtliche Dateien die so ausgeschlossen wurden, im index ... nur bei Verzeichnissen siehts so besser aus ... Wenn du jetzt sagst das leerzeichen bringt es nicht - was bringt es dann??

Gruß
Wuppi

Beitrag von **Pompom** » 25.01.2005, 12:50

Seiten, die erstmal gelistet sind, sind gelistet. Es dauert sehr lange, bis sie von Google aus deren Datenbestand entfernt werden.

Hilfreich ist sicher auch der Metatag:
<meta name="robots" content="NOINDEX, FOLLOW">
(falls Links von der Seite abgehen, die auch indiziert werden sollen)
oder
<meta name="robots" content="NOINDEX, NOFOLLOW">
falls die gesamte Seite und in der Seite enthaltene Links nicht indiziert und nicht weiter verfolgt werden sollen.

Beitrag von **Wuppi** » 26.01.2005, 15:47

Hi

kann ich nicht bestätigen ...

Ich hab die Tage ne Seite rausgebracht - die war Monatelag nur per .htaccess-Passwort zugänglich. Bevor ich die Seite geöffnet habe, hab ich die robots.txt hochgeladen ... inhalt u.a.:

Disallow: /index.php
Disallow: /index.php?
Disallow: /index.php/

(weiß ggf. doppelt gemoppelt - aber wollte sicher gehen - ist nen MediaWiki (die Soft die Wikipedia nutzt) - daher index.php/ <- sowas ist da gültig, je nach rewrite ... bei uns domain.de/Artikel )

Nach ~ 3 Wochen hab ich jetzt 4390 Seiten im Index .. wenn ich "site:www.domain.de -index.php" als Suchbegriff eingebe, hab ich nur noch 549 Seiten (was etwa passt; soviele Kontentseiten haben wir in etwa) ... wenn ich ohne -index.php suche, bekomm ich sämtlich Edits, Historys usw. raus - wird also alles gespidert obwohl das nicht so sollte ... (index.php?title=blabla&action=edit <- das sollte garnicht erst rein) ...

Die Aussage "was einmal drin ist, bleibt drin" hatte ich bis zu diesem Seitenstart auch gedacht - aber der Start hat meiner Meinung nach Eindeutig bewiesen das sich google nicht komplett an die robots.txt hält.

Gruß
Wuppi

Beitrag von **Pompom** » 26.01.2005, 16:21

Du solltest in der robots.txt nur

Disallow: /index.php
lassen.

Für Goolge (und nur für die) kannst du Content per Asterix sperren,
z.B.
Disallow: /index.php?*
# sperrt dynamischen Content der index.php
oder
Disallow: /*?
# sperrt jeden dynamischen Content im Root-Verzeichnis

Habe mal in deine Numismatik-Robots gesehen:
Disallow: /ptopic*.html$
Disallow: /ntopic*.html$
Disallow: /ftopic*asc*.html$

Da Asterix Wild Card * nur von Google (sagen die) unterstützt werden, solltest du die Sachen unter

User-agent: Googlebot
Disallow: /ptopic*.html$
Disallow: /ntopic*.html$
Disallow: /ftopic*asc*.html$

bringen.

Beitrag von **Wuppi** » 26.01.2005, 17:39

Hi

das mit dem asterix ist interessant - dachte das ? würde schon reichen ... das mach ich dann mal im Forum und im Wiki - aber bereits indizierten Kontent bekomm ich so nicht mehr raus? Solang es diesen Link gibt, bleibt der auch? Oder merkt sich google das er das nicht darf und frischt den Kontent nicht auf - so das irgendwann das zeugs rausfällt?

Gruß
Wuppi