Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

robots.txt

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
workershop
PostRank 8
PostRank 8
Beiträge: 697
Registriert: 19.11.2004, 19:08
Wohnort: Leipzig

Beitrag von workershop » 19.01.2005, 00:42

So sollte doch eine Robots.txt auschauen:

User-agent: *
Disallow: /irgendetwas.html

Jetzt überlege ich mir aber gerade, das eine Domain ja meistens so ausschaut:

www.domain.de/

also sieht der Robots Befehl ja so aus: www.domain.de//irgendetwas.html

Sollten da nicht alle, wo die Domain ein / am Ende hat die Robots.txt so haben?:
User-agent: *
Disallow: irgendetwas.html

Sonst gibt es doch den robots.txt Ausschluss Link gar nicht. Aber ich lass mich gern verbessern.

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

fool
PostRank 5
PostRank 5
Beiträge: 200
Registriert: 28.03.2004, 12:12

Beitrag von fool » 19.01.2005, 13:16

hallo workershop,

so sollte das ausschauen:

User-agent: *
Disallow: / irgendetwas.html (beachte das Leerzeichen hinter dem /)

und wenn du den / ganz wegläßt,
dann guck dir alle die threads an, von denen,
die Probleme mit ihrer robots.txt haben, weil sie
den nicht reinschreiben.

zum Thema noch der Link:

https://www.robotstxt.org/wc/norobots.html

da findest wahrscheinlich mehr als du wissen wolltest 8)

gruß
fool

Wuppi
PostRank 4
PostRank 4
Beiträge: 191
Registriert: 01.06.2004, 11:13
Wohnort: Wuppertal

Beitrag von Wuppi » 24.01.2005, 21:28

Hi

ich hab z.b.
Disallow: /forums.html

drin stehen - ohne leerschritt - und wundere (ärgere!) mich, das trotzdem gespidert wird (doppelter Content) ... wenn ich also nen leerschritt dazwischen setze, akzeptiert das auch google und ignoriert diese datei???

Wie schauts mit Verzeichnissen aus?
Disallow: /banner/ <- meine Variante
Bin aber der Meinung das ich keiner meiner "verbotenen" Verzeichnisse im Index zu finden ist?

Gruß
Wuppi

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Pompom
PostRank 10
PostRank 10
Beiträge: 3751
Registriert: 10.09.2004, 16:38

Beitrag von Pompom » 24.01.2005, 22:33

Disallow: / irgendetwas.html (beachte das Leerzeichen hinter dem /)

Ich habe Null Ahnung, warum dort ein Leerzeichen sein sollte.


Deine robots.txt sollte so aussehen:

User-agent: *
Disallow: /irgendetwas.html
# das ist eine Kommentarzeile, falls benötigt.
# /irgendetwas.html ist die Datei irgendetwas.html im Root des Web.

Disallow: /verbotenesverzeichnis/
# das ist das verbotene Verzeichnis, z.B.
Disallow: /cgi-bin/
Disallow: /admin/meinprogramm.php
Allow: /bloederbot/nimmdiedateiauch.php

Pompom
PostRank 10
PostRank 10
Beiträge: 3751
Registriert: 10.09.2004, 16:38

Beitrag von Pompom » 24.01.2005, 22:35

Noch eine kleine Anmerkung:
Es gibt eigentlich kein Allow:, jedoch gibt es einige, die behaupten, daß einige Bots (undokumentiert) das entsprechende Dokument indizieren.

LinkPop
PostRank 9
PostRank 9
Beiträge: 1677
Registriert: 02.05.2004, 13:52

Beitrag von LinkPop » 24.01.2005, 23:32

workershop hat geschrieben:Jetzt überlege ich mir aber gerade, das eine Domain ja meistens so ausschaut:

www.domain.de/

also sieht der Robots Befehl ja so aus: www.domain.de//irgendetwas.html

Sollten da nicht alle, wo die Domain ein / am Ende hat die Robots.txt so haben?:

Jede Software wird aus dem URL den Host ermitteln.

z.B. https://www.domain.de/ -> Host: www.domain.de

Danach werden Host und robots.txt-Anweisung zusammengesetzt:

www.domain.de/irgendetwas.html
[url=httpss://www.rankseek.com/][img]httpss://www.rankseek.com/img/rankseek-xs-2.png[/img][/url]
  • Täglicher Ranking-Check Deiner Top-Keywords mit Traffic-Index für Mobile und Desktop, Serp-View, Reporting, Ranking-Charts, Konkurrenzanalyse, Ranking-Verteilung, Keyword-Suggest und mehr für nur 11,90 € / Monat. Jetzt alle rankseek-Tools 30 Tage kostenlos testen » [url=httpss://www.rankseek.com/features.php]Features[/url]

Wuppi
PostRank 4
PostRank 4
Beiträge: 191
Registriert: 01.06.2004, 11:13
Wohnort: Wuppertal

Beitrag von Wuppi » 25.01.2005, 12:37

Pompom hat geschrieben:
Disallow: / irgendetwas.html (beachte das Leerzeichen hinter dem /)

Ich habe Null Ahnung, warum dort ein Leerzeichen sein sollte.


Deine robots.txt sollte so aussehen:

User-agent: *
Disallow: /irgendetwas.html
# das ist eine Kommentarzeile, falls benötigt.
# /irgendetwas.html ist die Datei irgendetwas.html im Root des Web.

Disallow: /verbotenesverzeichnis/
# das ist das verbotene Verzeichnis, z.B.
Disallow: /cgi-bin/
Disallow: /admin/meinprogramm.php
Allow: /bloederbot/nimmdiedateiauch.php
Naja nur Disallow: /DATEI.html <- interessiert google (und die anderen auch) NULL ... hab sämtliche Dateien die so ausgeschlossen wurden, im index ... nur bei Verzeichnissen siehts so besser aus ... Wenn du jetzt sagst das leerzeichen bringt es nicht - was bringt es dann??

Gruß
Wuppi

Pompom
PostRank 10
PostRank 10
Beiträge: 3751
Registriert: 10.09.2004, 16:38

Beitrag von Pompom » 25.01.2005, 12:50

Seiten, die erstmal gelistet sind, sind gelistet. Es dauert sehr lange, bis sie von Google aus deren Datenbestand entfernt werden.

Hilfreich ist sicher auch der Metatag:
<meta name="robots" content="NOINDEX, FOLLOW">
(falls Links von der Seite abgehen, die auch indiziert werden sollen)
oder
<meta name="robots" content="NOINDEX, NOFOLLOW">
falls die gesamte Seite und in der Seite enthaltene Links nicht indiziert und nicht weiter verfolgt werden sollen.

Wuppi
PostRank 4
PostRank 4
Beiträge: 191
Registriert: 01.06.2004, 11:13
Wohnort: Wuppertal

Beitrag von Wuppi » 26.01.2005, 15:47

Hi

kann ich nicht bestätigen ...

Ich hab die Tage ne Seite rausgebracht - die war Monatelag nur per .htaccess-Passwort zugänglich. Bevor ich die Seite geöffnet habe, hab ich die robots.txt hochgeladen ... inhalt u.a.:
Disallow: /index.php
Disallow: /index.php?
Disallow: /index.php/
(weiß ggf. doppelt gemoppelt - aber wollte sicher gehen - ist nen MediaWiki (die Soft die Wikipedia nutzt) - daher index.php/ <- sowas ist da gültig, je nach rewrite ... bei uns domain.de/Artikel )

Nach ~ 3 Wochen hab ich jetzt 4390 Seiten im Index .. wenn ich "site:www.domain.de -index.php" als Suchbegriff eingebe, hab ich nur noch 549 Seiten (was etwa passt; soviele Kontentseiten haben wir in etwa) ... wenn ich ohne -index.php suche, bekomm ich sämtlich Edits, Historys usw. raus - wird also alles gespidert obwohl das nicht so sollte ... (index.php?title=blabla&action=edit <- das sollte garnicht erst rein) ...

Die Aussage "was einmal drin ist, bleibt drin" hatte ich bis zu diesem Seitenstart auch gedacht - aber der Start hat meiner Meinung nach Eindeutig bewiesen das sich google nicht komplett an die robots.txt hält.

Gruß
Wuppi

Pompom
PostRank 10
PostRank 10
Beiträge: 3751
Registriert: 10.09.2004, 16:38

Beitrag von Pompom » 26.01.2005, 16:21

Du solltest in der robots.txt nur

Disallow: /index.php
lassen.

Für Goolge (und nur für die) kannst du Content per Asterix sperren,
z.B.
Disallow: /index.php?*
# sperrt dynamischen Content der index.php
oder
Disallow: /*?
# sperrt jeden dynamischen Content im Root-Verzeichnis


Habe mal in deine Numismatik-Robots gesehen:
Disallow: /ptopic*.html$
Disallow: /ntopic*.html$
Disallow: /ftopic*asc*.html$


Da Asterix Wild Card * nur von Google (sagen die) unterstützt werden, solltest du die Sachen unter

User-agent: Googlebot
Disallow: /ptopic*.html$
Disallow: /ntopic*.html$
Disallow: /ftopic*asc*.html$

bringen.

Wuppi
PostRank 4
PostRank 4
Beiträge: 191
Registriert: 01.06.2004, 11:13
Wohnort: Wuppertal

Beitrag von Wuppi » 26.01.2005, 17:39

Hi

das mit dem asterix ist interessant - dachte das ? würde schon reichen ... das mach ich dann mal im Forum und im Wiki - aber bereits indizierten Kontent bekomm ich so nicht mehr raus? Solang es diesen Link gibt, bleibt der auch? Oder merkt sich google das er das nicht darf und frischt den Kontent nicht auf - so das irgendwann das zeugs rausfällt?

Gruß
Wuppi

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag