Also als Benutzer von HTTrack muss ich sagen, dass man zwischen "robots.txt beachten" und "robots.txt ignorieren" wählen kann. Desweiteren kann man einen beliebigen User-Agent einstellen. Diese beiden Tatsachen machen sowohl die robots.txt- als auch die .htaccess-Methode überflüs...
Hi, danke für die Antworten. Interessante Anregungen. :) Nur eine Sache @ElDiablo: Nein, nicht benutzt, gebaut. Von null. Mit einer 0 Byte großen Datei angefangen und in 12 Stunden eine voll funktionsfähige OCR-Bibliothek gebaut. Die einzigen libs, die ich von Drittanbietern benutzt habe, waren die ...
Vielleicht ne Frage eher an die Admins dieses Forums: Halten euch eure Captcha-Bilder eigentlich Spambots vom Leibe? Also ist das alles, oder habt ihr da intern noch andere Tricks? Ich frage das, weil ich vor ca. 5 Jahren mal in einer Nacht-und-Nebel-Aktion eine OCR-Software gebaut habe, die eure Ca...
Definitiv Jein! :) Ich habe selbst mal ein Modul für eine Suchmaschine programmiert, was aus einem beliebigen Text die Keywords raussucht. Also die Wörter, um die sich der Text dreht. Dann habe ich das ganze mit den verschiedensten Seiten (Spiegel-Artikel, Blogs, und und und ...) getestet und war am...
Hallo! :) Was sollte ich tun, wenn meine Firma "Lorem" die Produkte "Ipsum" und "Dolor" verkaufen will und erstaunlicherweise die Domains ipsum.de und dolor.de noch frei sind? Das Problem ist, dass es natürlich auf der Firmenwebsite lorem.de eine Unterseite für "Ip...