Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

wwwster/1.2 (Beta)

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
robo
PostRank 8
PostRank 8
Beiträge: 837
Registriert: 23.12.2003, 19:41
Wohnort: Schwangau

Beitrag von robo » 05.08.2004, 20:00

Hi Leute,

kennt jemand diesen Bot und kann mir mehr dazu sagen?

cu, Robo :)

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

viggen
PostRank 10
PostRank 10
Beiträge: 6249
Registriert: 12.05.2003, 14:44

Beitrag von viggen » 19.08.2004, 12:15

Falls es der ist; wwwster/1.2 (Beta, mailto:gue[at]cis.uni-muenchen.de)

hat er die robots.txt beachtet?
mail doch einfach,

mfg
viggen

robo
PostRank 8
PostRank 8
Beiträge: 837
Registriert: 23.12.2003, 19:41
Wohnort: Schwangau

Beitrag von robo » 19.08.2004, 13:34

viggen hat geschrieben:Falls es der ist; wwwster/1.2 (Beta, mailto:gue[at]cis.uni-muenchen.de)

hat er die robots.txt beachtet?
Hmmm ... hab ich nicht darauf geachtet ... aber er ist es!

Mir geht es um was anderes. Der Spider kam nicht nur von 129.187.254.138 und 129.187.254.139, sondern auch von 81.169.145.11. Diese IP-Adresse gehört zu Strato und ist mir in einem anderen Zusammenhang schon mal unangenehm aufgefallen; über die wurde Content geklaut. Allerdings bin ich erst nicht dahintergekommen, was hinter 81.169.145.11 steckt, bis ich kürzlich die glorreiche Idee hatte, mal nmap auf diese IP loszulassen, und siehe da: Es ist ein Load Balancer!

Code: Alles auswählen

Interesting ports on bigip-fo.rzone.de (81.169.145.11):
(The 1655 ports scanned but not shown below are in state: closed)
PORT    STATE    SERVICE
22/tcp  open     ssh
389/tcp filtered ldap
683/tcp open     unknown
684/tcp open     unknown
Device type: load balancer
Running: F5 Labs embedded
OS details: F5 Labs BigIp Load balancer Kernel 4.1.1PTF-03 (X86)
Uptime 83.498 days (since Fri May 28 03:22:53 2004)
Das heisst nun, dass der Contentklau wohl von einem bei Strato gehosteten Server ausging und dass wwwster nichts damit zu tun hat. Aber warum bitteschön kommt wwwster über einen Load Balancer von Strato daher?

Wenn mir jemand helfen will, die Geschichte mit dem Contentklau über 81.169.145.11 tiefer zu ergründen, und warum wwwster auch über diese IP zugreift, dann soll er sich melden. Details zum Contentklau möchte ich erst mal nicht veröffentlichen.

cu, Robo :)

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 20:57
Wohnort: Vèneto

Beitrag von bull » 19.08.2004, 20:08

Würde
deny from 81.169.145.11
machen. Ich glaube nicht, daß uni-muenchen was damit zu tun hat, deren RZ dürfte nicht auf externe load balancer angewiesen sein. Alternativ e-mail an die angegebene Adresse, der Herr ist sehr nett und schnell.

robo
PostRank 8
PostRank 8
Beiträge: 837
Registriert: 23.12.2003, 19:41
Wohnort: Schwangau

Beitrag von robo » 20.08.2004, 00:15

bull hat geschrieben:Würde
deny from 81.169.145.11
machen.


Ich hab's noch viel raffinierter gemacht. Es gibt eine Website, wenn man die aufruft, klaut die den Content in Echtzeit von einer anderen Site (und tritt dabei als 81.169.145.11 auf) und zeigt ihn unter der eigenen URL an. Ich bin auf diese Site gestossen, weil sie im Logfile stand.

Meine Abwehrmassnahme dagegen:

Code: Alles auswählen

RewriteCond %{REMOTE_ADDR} 81.169.145.11
RewriteRule ^.* http://www.example.com/ [R,L]
Natürlich mit der beklauten Domain anstatt example.com.
bull hat geschrieben:Ich glaube nicht, daß uni-muenchen was damit zu tun hat, deren RZ dürfte nicht auf externe load balancer angewiesen sein. Alternativ e-mail an die angegebene Adresse, der Herr ist sehr nett und schnell.
Hmm ... vielleicht ist der Bot auf die Content-Klau-Site geraten? Das würde die Logfile-Einträge erklären. Allerdings ist die Content-Klau-Seite nirgends verlinkt, ich habe jedenfalls keine Links gefunden. Und deshalb frage ich mih:
1. Was will der Content-Klauer damit bezwecken?
2. Wie findet ein Bot diese Site?

cu, Robo :)

mausala
PostRank 3
PostRank 3
Beiträge: 67
Registriert: 23.08.2004, 17:18
Wohnort: Wuppertal

Beitrag von mausala » 18.09.2004, 03:28

Guten Morgen allerseits,

bin soeben auf diesen Post gestossen weil ich auch diesen komischen wwwster/1.2 in meine Logs entdeckt habe und nicht wusste was es ist.

Da ich um Rückverfolgung keine Ahnung habe und hier lese was das für nen Ding das ist mal eben eine Frage, gibt es nicht irgend eine Möglichkeit solche Robots auszusperren? Auch wenn das Ding die Robots.txt nicht beachtet?
Gruß Maurizio

Linkpartner? Einfach melden.
https://www.sport-freizeit-spiel.de

Luckybuy3000
PostRank 7
PostRank 7
Beiträge: 543
Registriert: 07.11.2003, 08:49
Wohnort: Essen

Beitrag von Luckybuy3000 » 18.09.2004, 09:47

Etliche Robots beachten nicht die robots.txt. Beispielsweise auch IBM_Planetwide. wwwster/1.2 hab ich auch in meinen Logs. War überall. Wenn es sich hier tatsächlich um Contenklau handelt, wird der sehr schnell ausgesperrrt per .htacces. Beispielsweise verwende ich für IBM-Planetwide jetzt das:

RewriteCond %{HTTP_USER_AGENT} ^IBM_Planetwide [NC,OR]


Bei wwwster/1.2 bin ich mir allerdings noch nicht sicher, ob er die robots.txt beachtet.

robo
PostRank 8
PostRank 8
Beiträge: 837
Registriert: 23.12.2003, 19:41
Wohnort: Schwangau

Beitrag von robo » 18.09.2004, 10:28

Luckybuy3000 hat geschrieben:Etliche Robots beachten nicht die robots.txt. Beispielsweise auch IBM_Planetwide.
Den kenne ich noch gar nicht. Wo gibt's mehr Infos über diesen Bot?
Luckybuy3000 hat geschrieben:wwwster/1.2 hab ich auch in meinen Logs. War überall. Wenn es sich hier tatsächlich um Contenklau handelt, wird der sehr schnell ausgesperrrt per .htacces.
Nach allem, was ich jetzt weiss, macht wwwster selbst keinen Contentklau, sondern er hat wohl eine andere Website gespidert, die Contentklau macht und ist mir deswegen mit einer verdächtigen IP-Adresse aufgefallen.
Luckybuy3000 hat geschrieben:Bei wwwster/1.2 bin ich mir allerdings noch nicht sicher, ob er die robots.txt beachtet.
Angeblich ja, steht irgendwo in einem anderen Thread hier.

cu, Robo :)

bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 20:57
Wohnort: Vèneto

Beitrag von bull » 18.09.2004, 10:32


Luckybuy3000
PostRank 7
PostRank 7
Beiträge: 543
Registriert: 07.11.2003, 08:49
Wohnort: Essen

Beitrag von Luckybuy3000 » 18.09.2004, 11:47

Zu IBM-Planetwide anscheinend auch ein ziemlicher Traficfresser mit unterschiedlichen IPS:

www.ibm.com/~webmaster/





@ viggen
Datenbank Liste Spiders/Robots/Crawler erweitern und ausbauen wäre ganz nützlich !

Luckybuy3000
PostRank 7
PostRank 7
Beiträge: 543
Registriert: 07.11.2003, 08:49
Wohnort: Essen

Beitrag von Luckybuy3000 » 22.09.2004, 15:07

wwwster /1.2 ist sehr aktiv auf unseren Seiten. Zuletzt hat er auch die robots.txt beachtet. Wer hat neue Erkenntnisse, was bringts auf Dauer.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag