Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Bildersuche (Google, Yahoo, MSN etc.) explizit aussperren

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
AndreasMeier
PostRank 4
PostRank 4
Beiträge: 125
Registriert: 27.10.2007, 07:34

Beitrag von AndreasMeier » 27.10.2007, 08:12

Hallo zusammen,

ich hab auf meiner Seite Fotos und Bilder, die ich selber gemacht/geschossen habe. Jetzt wollte ich mal fragen, wie ich all die Bots unterbinden kann, die Bilder crawlen und über die üblichen Bildersuchen zur Verfügung stellen.

Im Moment hab ich z.B. für den Googlebot-Image folgendes in der robots.txt:

User-agent: Googlebot-Image
Disallow: /
Disallow: /*.jpeg$
Disallow: /*.jpg$

Zusätzlich ist mein /bilder-Verzeichnis auch im Disallow drinnen.

Nun hab ich gelesen, dass MSN sich nicht immer an die robots.txt gehalten hat (weiß nicht, obs immer noch so ist) bzw. aggressiv die Seite crawlt.

Nun meine Fragen dazu:
1.) ist mein Eintrag für den Googlebot-Image effektiv ?
2.) wie kann ich eine Yahoo-Bildersuche aussperren ?
3.) wie kann ich eine MSN-Bildersuche aussperren ?

Mir geht es nur um die Bildersuche an sich, nicht um den Crawler des Inhalts. Ich möchte bloß, dass meine Bilder nicht in der Bildersuche landen.

Oder gibt es einen allgemein gültigen Ansatz für die Problemstellung ?

Danke und Gruß
Andreas

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


marguardth
PostRank 3
PostRank 3
Beiträge: 96
Registriert: 27.10.2007, 12:27
Wohnort: Tübingen

Beitrag von marguardth » 28.10.2007, 05:10

hi andreas,

die bots, die du oben ansprichst halten sich laut ihrer info-seiten alle an den robots.txt exclusion standard www.robotstxt.org.
allerdings kommt es trotz einer korrekt angelegten robots.txt immer wieder mal dazu, dass einer dieser bots sich doch auf eine der nicht erlaubten seiten verirrt. das ist für viele, die sich mit dem thema bots beschäftigen ein bekanntes problem und lässt sich leider nicht verhindern, auch wenn sich mir der grund dafür verschließt. was du da über den msn-bot gelesen hast, ist also korrekt.

deshalb ist dein eintrag zu Googlebot-Image, obwohl er korrekt ist (!), wenn du nur jpgs von der indexierung ausschließen willst, keine garantie dafür, dass deine fotos nicht doch hier und da in einer bildesuche auftauchen. an deiner stelle würde ich bots, die du nicht auf deiner seite haben willst per .htaccess aussperren. dann übernimmt nämlich dein server die aufgabe, diese bots vom zugriff auf deine seite abzuhalten und dann haben sie auch keine möglichkeit mehr, sich nicht an die robots.txt zu halten.

den google bot kennst du ja schon.
der von yahoo nennt sich Yahoo-MMCrawler.
an die bezeichnung des msn bots für bilder kann ich mich nicht mehr erinnern ... solltest du aber "ergooglen" können.

wie du diese bots dann mit hilfe der .htaccess aussperrst, kannst du in diesem forum herausfinden, wenn du nach ".htaccess" suchst und in den ergebnissen ein bischen recherchierst. das ergebnis deiner zusammenstellung kann ich mir gerne noch mal anschauen, falls du dir unsicher bist!

noch ein grundsätzlicher tipp: wenn du wie in diesem post fragen zu einer bestimmten seite hast, hilft es immer, wenn du einen link auf die seite lieferst. so können diejenigen, die dir helfen wollen fragen oft einfacher und präziser beantworten. gleiches gilt für behauptungen wie "habe ich gelesen".

AndreasMeier
PostRank 4
PostRank 4
Beiträge: 125
Registriert: 27.10.2007, 07:34

Beitrag von AndreasMeier » 28.10.2007, 12:14

marguardth hat geschrieben: der von yahoo nennt sich Yahoo-MMCrawler.
an die bezeichnung des msn bots für bilder kann ich mich nicht mehr erinnern ... solltest du aber "ergooglen" können.
Ist der "MMCrawler" der jenige, der bei Yahoo für Bilder zuständig ist ?

Das mit der MSN-Bezeichnung ist echt schade, dass Du die nicht mehr wusstest. Genau der ist mein Hauptproblem und rausgoogeln konnte ich leider nix eindeutiges.

Vielleicht kann mir da noch einer Schützenhilfe geben. Danke !!

marguardth
PostRank 3
PostRank 3
Beiträge: 96
Registriert: 27.10.2007, 12:27
Wohnort: Tübingen

Beitrag von marguardth » 28.10.2007, 15:09

ja, der MMCrawler ist für die bilder bei yahoo zuständig.

der bot von microsoft heißt übrigens "msnbot-media".

wenn du schon dabei bist, dann schalte auch noch psbot aus. das ist der image-bot von ask.

AndreasMeier
PostRank 4
PostRank 4
Beiträge: 125
Registriert: 27.10.2007, 07:34

Beitrag von AndreasMeier » 29.10.2007, 07:47

Danke, den hab ich bereits.
Wusste aber noch nicht, dass der zu ASK gehört.

Gibts noch andere ?

marguardth
PostRank 3
PostRank 3
Beiträge: 96
Registriert: 27.10.2007, 12:27
Wohnort: Tübingen

Beitrag von marguardth » 29.10.2007, 13:30

keinen, den ich dir namentlich nennen könnte ...

du kannst dir aber sicher sein, dass hinter jeder plattform, die eine bildersuche anbietet, ohne dass diese von Menschen hochgeladen werden müssen, einer oder mehrere Spider stehen. wie sollten die bilder sonst in die datenbank kommen.

wenn du alle spider von deiner seite aussperren möchtest, falls das überhaupt machbar ist, wirst du dir die arbeit machen müssen, im www nach diesen plattformen zu suchen.
wenn du eine gefunden hast, suchst du mit deren namen in kombination mit den worten spider, crawler, robot oder bot (jeweils eins). in der regel findest du schnell seiten, die sich mit dem bot einer plattform beschäftigen. achte aber darauf einen hinweis zu bekommen, von wann die artikel stammen. die namen der bots verändern sich nämlich ab und zu.

good luck!

AndreasMeier
PostRank 4
PostRank 4
Beiträge: 125
Registriert: 27.10.2007, 07:34

Beitrag von AndreasMeier » 29.10.2007, 16:19

Ok, wenn ich die robots.txt jetzt so erweitere, stimmt dann der Synthax ?

User-agent: Googlebot-Image
Disallow: /
Disallow: /*.jpeg$
Disallow: /*.jpg$

User-agent: psbot
Disallow: /

User-agent: Msnbot-media
Disallow: /
Disallow: /*.jpeg$
Disallow: /*.jpg$

User-agent: Yahoo-MMCrawler
Disallow: /
Disallow: /*.jpeg$
Disallow: /*.jpg$


Wäre das so richtig ? Auch die Schreibweise der einzelnen Crawler ?

Danke und Gruß
Andreas

marguardth
PostRank 3
PostRank 3
Beiträge: 96
Registriert: 27.10.2007, 12:27
Wohnort: Tübingen

Beitrag von marguardth » 29.10.2007, 17:01

jau, die syntax stimmt! 8)

den msnbot-media schreibst du der sicherheit halber am besten noch klein und dann ab damit auf dern server.

AndreasMeier
PostRank 4
PostRank 4
Beiträge: 125
Registriert: 27.10.2007, 07:34

Beitrag von AndreasMeier » 29.10.2007, 17:07

Merci vielmals :)


Spielt die Gross-/Kleinschreibung ne Rolle ?
Kann dann Googlebot-Image und Yahoo-MMCrawler so bleiben, oder müssen die auch klein sein ?

marguardth
PostRank 3
PostRank 3
Beiträge: 96
Registriert: 27.10.2007, 12:27
Wohnort: Tübingen

Beitrag von marguardth » 30.10.2007, 06:06

ich habe den msnbot erwähnt, weil der offiziell klein geschrieben wird.
ich weiß nicht, ob der so nett ist sich an deine regeln zu halten, wenn du seinen namen nicht richtig schreibst. in der robots.txt sollte man sich genau an den standard halten, dann ist wahrscheinlichkeit am größten, dass sie auch was bringt.

der rest bleibt!

AndreasMeier
PostRank 4
PostRank 4
Beiträge: 125
Registriert: 27.10.2007, 07:34

Beitrag von AndreasMeier » 30.10.2007, 07:35

Danke nochmal !

marguardth
PostRank 3
PostRank 3
Beiträge: 96
Registriert: 27.10.2007, 12:27
Wohnort: Tübingen

Beitrag von marguardth » 30.10.2007, 07:39

keine ursache :wink:

wenn's darum geht, bots auszusperren, bin ich immer dabei! :bad-words:

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag