Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Robots.txt versus .htaccess

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
katerina
PostRank 4
PostRank 4
Beiträge: 155
Registriert: 08.04.2004, 08:37
Wohnort: Nürnberg

Beitrag von katerina » 15.04.2004, 08:51

Frage eines Laien:

Sollte man die Robots in beiden Dateien aussperren? Ist es gleichwertig?
Ich habe gehört, die "bösen" robots beachten die robots.txt gar nicht. Die "bösen" will man aber eben aussperren, dann nutzt die robots.txt nichts.
Oder?

Gruß
K.

Anzeige von ABAKUS

von Anzeige von ABAKUS »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Chriss74
PostRank 2
PostRank 2
Beiträge: 57
Registriert: 25.03.2004, 17:23
Wohnort: Unna

Beitrag von Chriss74 » 15.04.2004, 12:22

Was ist denn ein böser Robot?

Gruß,
Chriss

katerina
PostRank 4
PostRank 4
Beiträge: 155
Registriert: 08.04.2004, 08:37
Wohnort: Nürnberg

Beitrag von katerina » 15.04.2004, 12:33

böse = ein Spammer, der Emailadressen sammelt oder so ähnlich.
Ich verstehe die Geschichte mit den Robots sowieso nicht ganz. Warum hat Abakus so eine lange robots.txt? Warum will man soviel robots von der Seite verbannen?

Gruß
K.

Chriss74
PostRank 2
PostRank 2
Beiträge: 57
Registriert: 25.03.2004, 17:23
Wohnort: Unna

Beitrag von Chriss74 » 15.04.2004, 13:15

katerina hat geschrieben:böse = ein Spammer, der Emailadressen sammelt oder so ähnlich.
Ich verstehe die Geschichte mit den Robots sowieso nicht ganz. Warum hat Abakus so eine lange robots.txt? Warum will man soviel robots von der Seite verbannen?

Gruß
K.
Also wenn es nachweislich "böse" Robots gibt, dann würde ich die zukünftig auch ausschließen wollen. Deine Frage scheint mir dann aber berechtigt, ob eine robots.txt da überhaupt etwas bringt. Denn warum sollte sich ein böser Robot an die robots.txt halten?

Gruß,
Chriss

Fruetel
PostRank 6
PostRank 6
Beiträge: 392
Registriert: 05.06.2003, 22:00
Wohnort: Essen

Beitrag von Fruetel » 15.04.2004, 16:20

Ich würde sagen, man darf das nicht alles schwarz/weiss sehen. Neben den richtig bösen Bots, die sich sicherlich nicht an die Robots.txt halten (und daher besser per .htaccess ausgesperrt werden sollten), und den wichtigen (Googlebot, Slurp, etc), gibt es sicherlich einen Haufen Bots, die nicht wirklich böses im Schilde führen, aber auch keinen wirklichen Nutzen bringen (z.B. weil die dahinterstehende Site zu unbedeutend ist, es eine japanische Suchmaschine ist, und man keinen Traffic von dort braucht, etc). Wenn nun eine Site so gut verlinkt, und zudem derart umfangreich wie Abakus ist, verursachen diese 'unnützen' Robots durchaus nennenswerten Traffic. Sowas kann irgendwann ins Geld gehen. Schätze daher hier die umfangreiche Robots.txt.

Gruss,
Thomas
Aktuell im Webmaster Blog:
Bild

katerina
PostRank 4
PostRank 4
Beiträge: 155
Registriert: 08.04.2004, 08:37
Wohnort: Nürnberg

Beitrag von katerina » 15.04.2004, 20:28

Das ist ein gutes Argument. Den Traffic habe ich gar nicht bedacht (vielleicht weil ich meine im Hosting-Preis enthaltenen 15 GB nicht so schnell erreichen kann). :(

Gibt es irgendwo eine Liste mit den richtig "bösen" robots (spammer usw.)?

Gruß
K.

robo
PostRank 8
PostRank 8
Beiträge: 837
Registriert: 23.12.2003, 19:41
Wohnort: Schwangau

Beitrag von robo » 16.04.2004, 02:51

Hallo katerina,
katerina hat geschrieben:Gibt es irgendwo eine Liste mit den richtig "bösen" robots (spammer usw.)?
Gerade gestern habe ich mich damit wieder beschäftigt, hier mal eine kleine Liste, die ich teils selbst zusammengetragen, teils durch veröffentlichte Listen ergänzt habe. Das kann man direkt so in die .htaccess übernehmen. Natürlich erhebt die Liste keinen Anspruch auf Vollständigkeit.

"Böse" Bots sollte man immer über .htacces aussperren, weil man sich nicht sicher sein kann, ob sie robots.txt beachten; die "richtig bösen" werden es sicher nicht tun ...

Code: Alles auswählen

RewriteEngine on
RewriteCond %{HTTP_REFERER} iaea\.org [OR] # spambot
RewriteCond %{HTTP_USER_AGENT} Indy\ Library [OR] # spambot
RewriteCond %{HTTP_USER_AGENT} DTS\ Agent [OR] # spambot
RewriteCond %{HTTP_USER_AGENT} ^oBot [OR] # spybot
RewriteCond %{HTTP_USER_AGENT} ^Mozilla.*\ obot [OR] # spybot
RewriteCond %{HTTP_USER_AGENT} ^RIN\.\ Web\ crawler [OR] # spambot
RewriteCond %{HTTP_USER_AGENT} compatible\ ;\ MSIE\ 6.0 [OR] # spambot (note extra space before semicolon)
RewriteCond %{HTTP_USER_AGENT} ^IE\ \d\.\d\ Compatible.*Browser$ [OR] # spambot
RewriteCond %{HTTP_USER_AGENT} Microsoft\ URL\ Control [OR] # spambot
RewriteCond %{HTTP_USER_AGENT} \([^\)]+$ # spambot (User Agent lacks the closing parenthesis)
RewriteRule ^.* - [F]
Eine kleine Hilfe kann dir sicher auch das hier sein:
https://diveintomark.org/archives/2003/ ... go_to_hell

cu, Robo :)

katerina
PostRank 4
PostRank 4
Beiträge: 155
Registriert: 08.04.2004, 08:37
Wohnort: Nürnberg

Beitrag von katerina » 16.04.2004, 09:02

Hallo robo,

vielen Dank. Die Liste sieht sieht ja richtig kompliziert aus.
Aber so was habe ich gesucht. Dein Link hilft mir auch weiter (auch wenn mein Englisch zu wünschen übrig lässt). :-)

Ach, wenn es nicht so viel Schlechtigkeit auf der Welt gäbe, hätte ich viel weniger Arbeit. <seufz>

Schöne Grüße aus Nürnberg
K.

myvasco
PostRank 3
PostRank 3
Beiträge: 92
Registriert: 15.04.2004, 17:52

Beitrag von myvasco » 16.04.2004, 11:01

Hallo Katerina,

wenn Du Robots ausschließen willst, die E-Mails sammeln, wäre es vielleicht sinnvoll die E-Mails zu verschlüsseln.
*räusper* kenn da so eine Website, wo es ein kostenloses Toll zum Unicode und JS (nicht das Mail zerhacken) verschlüsseln gibt */räusper*

cu, r.

robo
PostRank 8
PostRank 8
Beiträge: 837
Registriert: 23.12.2003, 19:41
Wohnort: Schwangau

Beitrag von robo » 16.04.2004, 11:05

Hi katerina,
katerina hat geschrieben:vielen Dank. Die Liste sieht sieht ja richtig kompliziert aus.
Naja, Regular Expressions schauen immer aus, als ob man ein Gürteltier über die Tastatur gerollt hätte ... ;-)
Aber so was habe ich gesucht. Dein Link hilft mir auch weiter (auch wenn mein Englisch zu wünschen übrig lässt).
Einen habe ich doch glatt vergessen:
https://www.kloth.net/internet/badbots.php

Googeln nach einschlägigen Begriffen wie htacces, "bad bots", "referrer spam" etc. hilft auch weiter. Und für die Rewrite Engine: mod_rewrite (mod_setenvif und mod_access, wenn man kein mod_rewrite zur Verfügung hat).

cu, Robo :)

katerina
PostRank 4
PostRank 4
Beiträge: 155
Registriert: 08.04.2004, 08:37
Wohnort: Nürnberg

Beitrag von katerina » 16.04.2004, 11:30

@myvasco
Hilft es, wenn man die Email-Adressen niergendwo im HTML-Code hat, nur als Variable im PHP-Code? Oder können die Spam-Bots es aus dem PHP-Code rausfischen?

@robo
Das Gürteltier rollt aber ganz schön schräg! :lol:

mod_rewrite hab ich (nutze schon für PHP>HTML)
Ich muss mich jetzt generell mehr mit dem Thema beschäftigen. Habe auch schon etliche robot-Besuche im Logfile, muss herausfinden, ob es schädlich sein kann.

Gruß
K.

robo
PostRank 8
PostRank 8
Beiträge: 837
Registriert: 23.12.2003, 19:41
Wohnort: Schwangau

Beitrag von robo » 16.04.2004, 11:45

Hallo Katerina,
katerina hat geschrieben:@myvasco
Hilft es, wenn man die Email-Adressen niergendwo im HTML-Code hat, nur als Variable im PHP-Code? Oder können die Spam-Bots es aus dem PHP-Code rausfischen?
Das kann ich dir auch sagen. :-)

Also hier scheint es wirklich arge Verständnisprobleme zu geben, nicht nur bei dir.

Aaaaalso: Der PHP-Code wird auf dem Server interpretiert, im Browser sieht man davon nichts. Aber der HTML-Code, der durch PHP generiert wird, den sieht man natürlich im Browser (wenn man sich den Quellcode anzeigen lässt). Und das, was man im Browser sieht, sehen auch die Bots.

Im speziellen Fall heisst das: Wenn die Variable, die die E-Mail Adresse enthält, irgendwo per echo ausgegeben wird, dann steht sie natürlich auf der resultierenden HTML-Seite und kann gelesen werden.

Man kann die E-Mail Adresse aber entsprechend kodieren, dass Bots es schwerer haben, sie zu lesen, und JavaScript braucht man dazu gar nicht. Ich habe dafür 'ne entsprechende PHP-Routine ...
@robo
Das Gürteltier rollt aber ganz schön schräg! :lol:
Ja mei, so ist das halt. :-)
mod_rewrite hab ich (nutze schon für PHP>HTML)
Ich muss mich jetzt generell mehr mit dem Thema beschäftigen. Habe auch schon etliche robot-Besuche im Logfile, muss herausfinden, ob es schädlich sein kann.
Kleiner Tip: wenn du Anker verlinkt hast, dann schau in den Logfiles, ob du irgendwelche Einträge findest, wo versucht wurde, eine Datei mit Anker anzufordern (also in der Art: GET /seite.html#anker), denn das war dann ein "dummer" Bot. Wenn du dann einen eindeutigen User Agent (Browserstring) findest oder eine IP-Adresse, die nicht zu einem Dialin-Port gehört, dann hast du schon was gefunden, was dir weiterhilft. :-)

cu, Robo :)

myvasco
PostRank 3
PostRank 3
Beiträge: 92
Registriert: 15.04.2004, 17:52

Beitrag von myvasco » 16.04.2004, 11:55

Hey Katerina,

weiß nicht ob ich Dich richtig verstehe - Spider können dynamisch-generierte Seiten auslesen. (also wenn für normale User e-Mail Addy sichtbar, kann das Mail-spider wohl auch)
Ansonsten wurde auf dieser Seite mit php die e-mail Adressen verschlüsselt https://www.arbeitnehmerkammer.de/ - meinst Du das? (nicht von uns gemacht, nur mal aufgespürt)

katerina
PostRank 4
PostRank 4
Beiträge: 155
Registriert: 08.04.2004, 08:37
Wohnort: Nürnberg

Beitrag von katerina » 16.04.2004, 12:21

Hallo!

Ich gebe die Email-Adresse niergendwo aus (das hab ich gemeint mit "niergendwo im HTML-Code"). Ich habe ein Kontakt-Formular mit Submit-Button. Dann wird PHP code ausgeführt:

$email="mail@domain.de"
mail($email, $betreff, $message......);

und der ganze Inhalt des Formulars wird an die Adresse geschickt. Im HTML kommt nichts.
Die Frage war, ob die robots sowas lesen können.

@myvasco
Die Verschlüsselung von www.arbeitnehmerkammer.de ist interessant, ich hab sowas noch nie gesehen.

@robo
Was heißt "eine IP-Adresse, die nicht zu einem Dialin-Port gehört"?

Gruß
Katerina

robo
PostRank 8
PostRank 8
Beiträge: 837
Registriert: 23.12.2003, 19:41
Wohnort: Schwangau

Beitrag von robo » 16.04.2004, 12:29

Hallo katerina,
katerina hat geschrieben:Ich gebe die Email-Adresse niergendwo aus (das hab ich gemeint mit "niergendwo im HTML-Code"). Ich habe ein Kontakt-Formular mit Submit-Button. Dann wird PHP code ausgeführt:

$email="mail@domain.de"
mail($email, $betreff, $message......);

und der ganze Inhalt des Formulars wird an die Adresse geschickt. Im HTML kommt nichts.
Die Frage war, ob die robots sowas lesen können.
Das natürlich nicht, wie denn auch?
@myvasco
Die Verschlüsselung von www.arbeitnehmerkammer.de ist interessant, ich hab sowas noch nie gesehen.
Und meines Erachtens völlig übertrieben, jedenfalls nach heutigem Stand der Dinge. Es geht derzeit auch einfacher, sich wirkungsvoll gegen Spambots zu schützen.
@robo
Was heißt "eine IP-Adresse, die nicht zu einem Dialin-Port gehört"?
Hmmm ... na das, was es heisst. :-)

Also ein Dialin-Port ist ein Einwahlzugang; wenn du dich über einen Provider einwählst, dann über einen Dialin-Port, der natürlich eine IP-Adresse hat. Einen Dialin-Port auf dem Server auszusperren, macht keinen Sinn, weil den heute ein Spammer benutzt und morgen schon wieder ein ganz normaler Surfer.

Wenn ein Spammer allerding einen eigenen Server mit fester IP-Adresse hat und von diesem Server aus seine Spambots losschickt, dann kannst du diese Adresse ohne weiteres aussperren. :-)

cu, Robo :)

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag