Seite 1 von 2

Meine robots.txt

Verfasst: 17.03.2012, 00:48
von Bengel52
Hallo,

ich habe seit einigen Jahren folgende robots.txt

Code: Alles auswählen

User-agent: grub-client
Disallow: /

User-agent: grub
Disallow: /

User-agent: looksmart
Disallow: /

User-agent: WebZip
Disallow: /

User-agent: larbin
Disallow: /

User-agent: b2w/0.1
Disallow: /

User-agent: psbot
Disallow: /

User-agent: Python-urllib
Disallow: /

User-agent: NetMechanic
Disallow: /

User-agent: URL_Spider_Pro
Disallow: /

User-agent: CherryPicker
Disallow: /

User-agent: EmailCollector
Disallow: /

User-agent: EmailSiphon
Disallow: /

User-agent: WebBandit
Disallow: /

User-agent: EmailWolf
Disallow: /

User-agent: ExtractorPro
Disallow: /

User-agent: CopyRightCheck
Disallow: /

User-agent: Crescent
Disallow: /

User-agent: SiteSnagger
Disallow: /

User-agent: ProWebWalker
Disallow: /

User-agent: CheeseBot
Disallow: /

User-agent: LNSpiderguy
Disallow: /

User-agent: ia_archiver
Disallow: /

User-agent: ia_archiver/1.6
Disallow: /

User-agent: Teleport
Disallow: /

User-agent: TeleportPro
Disallow: /

User-agent: MIIxpc
Disallow: /

User-agent: Telesoft
Disallow: /

User-agent: Website Quester
Disallow: /

User-agent: moget/2.1
Disallow: /

User-agent: WebZip/4.0
Disallow: /

User-agent: WebStripper
Disallow: /

User-agent: WebSauger
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: NetAnts
Disallow: /

User-agent: Mister PiX
Disallow: /

User-agent: WebAuto
Disallow: /

User-agent: TheNomad
Disallow: /

User-agent: WWW-Collector-E
Disallow: /

User-agent: RMA
Disallow: /

User-agent: libWeb/clsHTTP
Disallow: /

User-agent: asterias
Disallow: /

User-agent: httplib
Disallow: /

User-agent: turingos
Disallow: /

User-agent: spanner
Disallow: /

User-agent: InfoNaviRobot
Disallow: /

User-agent: Harvest/1.5
Disallow: /

User-agent: Bullseye/1.0
Disallow: /

User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
Disallow: /

User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
Disallow: /

User-agent: CherryPickerSE/1.0
Disallow: /

User-agent: CherryPickerElite/1.0
Disallow: /

User-agent: WebBandit/3.50
Disallow: /

User-agent: NICErsPRO
Disallow: /

User-agent: Microsoft URL Control - 5.01.4511
Disallow: /

User-agent: DittoSpyder
Disallow: /

User-agent: Foobot
Disallow: /

User-agent: WebmasterWorldForumBot
Disallow: /

User-agent: SpankBot
Disallow: /

User-agent: BotALot
Disallow: /

User-agent: lwp-trivial/1.34
Disallow: /

User-agent: lwp-trivial
Disallow: /

User-agent: BunnySlippers
Disallow: /

User-agent: Microsoft URL Control - 6.00.8169
Disallow: /

User-agent: URLy Warning
Disallow: /

User-agent: Wget/1.6
Disallow: /

User-agent: Wget/1.5.3
Disallow: /

User-agent: Wget
Disallow: /

User-agent: LinkWalker
Disallow: /

User-agent: cosmos
Disallow: /

User-agent: moget
Disallow: /

User-agent: hloader
Disallow: /

User-agent: humanlinks
Disallow: /

User-agent: LinkextractorPro
Disallow: /

User-agent: Offline Explorer
Disallow: /

User-agent: Mata Hari
Disallow: /

User-agent: LexiBot
Disallow: /

User-agent: Web Image Collector
Disallow: /

User-agent: The Intraformant
Disallow: /

User-agent: True_Robot/1.0
Disallow: /

User-agent: True_Robot
Disallow: /

User-agent: BlowFish/1.0
Disallow: /

User-agent: JennyBot
Disallow: /

User-agent: MIIxpc/4.2
Disallow: /

User-agent: BuiltBotTough
Disallow: /

User-agent: ProPowerBot/2.14
Disallow: /

User-agent: BackDoorBot/1.0
Disallow: /

User-agent: toCrawl/UrlDispatcher
Disallow: /

User-agent: WebEnhancer
Disallow: /

User-agent: suzuran
Disallow: /

User-agent: VCI WebViewer VCI WebViewer Win32
Disallow: /

User-agent: VCI
Disallow: /

User-agent: Szukacz/1.4 
Disallow: /

User-agent: QueryN Metasearch
Disallow: /

User-agent: Openfind data gathere
Disallow: /

User-agent: Openfind 
Disallow: /

User-agent: Xenu's Link Sleuth 1.1c
Disallow: /

User-agent: Xenu's
Disallow: /

User-agent: Zeus
Disallow: /

User-agent: RepoMonkey Bait & Tackle/v1.01
Disallow: /

User-agent: RepoMonkey
Disallow: /

User-agent: Microsoft URL Control
Disallow: /

User-agent: Openbot
Disallow: /

User-agent: URL Control
Disallow: /

User-agent: Zeus Link Scout
Disallow: /

User-agent: Zeus 32297 Webster Pro V2.9 Win32
Disallow: /

User-agent: Webster Pro
Disallow: /

User-agent: EroCrawler
Disallow: /

User-agent: LinkScan/8.1a Unix
Disallow: /

User-agent: Keyword Density/0.9
Disallow: /

User-agent: Kenjin Spider
Disallow: /

User-agent: Iron33/1.0.2
Disallow: /

User-agent: Bookmark search tool
Disallow: /

User-agent: GetRight/4.2
Disallow: /

User-agent: FairAd Client
Disallow: /

User-agent: Gaisbot
Disallow: /

User-agent: Aqua_Products
Disallow: /

User-agent: Radiation Retriever 1.1
Disallow: /

User-agent: Flaming AttackBot
Disallow: /

User-agent: Oracle Ultra Search
Disallow: /

User-agent: MSIECrawler
Disallow: /

User-agent: PerMan
Disallow: /

User-agent: searchpreview
Disallow: /
Habe die damals von jemanden bekommen.

Gibt es generell eine robots.txt die man benutzen sollte, oder kann ich ohne schlechtes Gewissen der Suchmaschinen gegenüber meine aktuelle weiter nutzen?

Liebe Grüße,
Bengel52

Verfasst:
von

Verfasst: 17.03.2012, 10:21
von Bodo99
Hab mir auch mal überlegt, welche Bots man auf jeden Fall ausschließen soll. Werd mir mal die https://de.wikipedia.org/robots.txt analysieren. Die schließen auch einige Contentdiebe mit aus.

Verfasst: 17.03.2012, 10:41
von dp-wurzel
Also besser ist es das über die .htaccess zu regeln oder Spider-Trap zu nutzen. An die robots.txt halten sich die Bad-Bots und Content Diebe sowieso nicht. Das ist vergeudete Zeit sich damit zu befassen.

MfG dp-wurzel

Verfasst:
von

Verfasst: 19.03.2012, 01:05
von Vegas
dp-wurzel hat geschrieben:Also besser ist es das über die .htaccess zu regeln oder Spider-Trap zu nutzen. An die robots.txt halten sich die Bad-Bots und Content Diebe sowieso nicht. Das ist vergeudete Zeit sich damit zu befassen.
Wahre Worte, die Robots.txt taugt nur für Bots die sich auch dran halten, etwa den Googlebot, um Loginseiten für den Adminzugang o.ä, auszuschließen. Für die bösen Jungs muss die .htaccess her, die einfach sperrt und nicht nur einen Wunsch äußert.

Verfasst: 19.03.2012, 05:21
von h0lm3z
hi

spricht irgendetwas gegen eine Whitelist ("alle sperren, ausser xyz")?
------------------------------
# Block all
User-agent: *
Disallow: /

# Whitelist
User-agent: Googlebot
Disallow:

User-agent: msnbot
Disallow:
-------------------------------

Verfasst: 19.03.2012, 08:43
von dp-wurzel
Dann würd ich aber wenigstens den "Mediabot" und den "Adsensbot" mit reinnehmen, sonst geht irgendwann das Gejammer los... :-).

Nee würd ich nicht machen, bringt ja wie gesagt bei den bösen Jungs eh nichts. Ist wie bei "Piraten der Karabik", Das beachten der "robots.txt" ist mehr eine Empfehlung/Richtlinie, kein Gesetz.

MfG dp-wurzel

Verfasst: 19.03.2012, 11:48
von holgi74
die robots.txt sollte nicht überbewertet werden. Google hat sogar Seiten indexiert die ausgeschlossen wurden.
Meiner Meinung nach mehr Spielerei

nutze htaccess um gezielt Bots/ Content Diebe auszusperren

Verfasst: 19.03.2012, 11:57
von ThatsLife
holgi74:
Es heißt ja auch nur nicht crawlen, von indizieren steht da ja auch nichts. Nur wenn der gbot Links findet die auf disallow stehen indiziert er sie und zwar nur die Links.

Verfasst: 23.03.2012, 22:46
von Lilu24
Mal kurz eine Frage: Ich finde per FTP die Robots.txt gar nicht bei mir obwohl ich einen habe bei der Abfrage.

An was liegt das denn?

Verfasst: 23.03.2012, 22:51
von SEO-Heike
Ist je nach FTP Client evtl. versteckt und das Anzeigen der Datei muss "erzwungen" werden.

Verfasst: 23.03.2012, 22:53
von Lilu24
Kannst du mir sagen wie man das macht bei Filezilla?

Verfasst: 23.03.2012, 22:56
von SEO-Heike
Server > Auflistung versteckter Dateien erzwingen

Betrifft aber eher sowas wie .htaccess als robots.txt. Kann mich aber irren.

Verfasst: 23.03.2012, 23:02
von dp-wurzel
@Lilu24 Benutzt du Wordpress? Wenn ja dann...
Du hast vermutlich eigentlich keine "robots.txt" Die angezeigte stammt eventuell von Wordpress. Erst wenn du selber eine anlegst verschwindet die. Deshalb siehst du auch nix mit dem FTP-Programm. Achja und lies hier mal die Beiträge zu Filezilla :-)

MfG dp-wurzel

Verfasst: 24.03.2012, 07:18
von Lilu24
@db-wurzel: Also genau ich benutze WP. hab es mir schon gedacht, dass ich vermutlich gar keine habe. Kam es nur komisch vor, dass ich in den Webmaster Tolls eine gefunden habe.

Und Filezilla muss ich mal suchen. Gibt es da ein Problem?

Verfasst: 24.03.2012, 19:05
von Aalex
Für mein Blog sieht die robots.txt so aus: https://www.zabang.de/robots-txt-fuer-wordpress.html