Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Suche gute Spidersoftware

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
damael
PostRank 3
PostRank 3
Beiträge: 74
Registriert: 26.04.2005, 01:59
Wohnort: Solothurn

Beitrag von damael » 25.07.2005, 10:16

Ich weiss nicht ob es hier überhaupt jemanden gibt, der mir darüber auskunft geben kann / will. Ich bin auf der Suche nach guter Spidersoftware. Bisher konnte ich ja alles mit php regeln, aber nun würde es mich doch mal wunder nehmen, was denn eigentlich richtig "professionelle" Spidersoftware ist. Konnte leider bisher hier nur posts von erzürnten Seos finden die Bots aussperren wollen. Ich will wirklich keinen Content klauen es nimmt mich nur wunder, wie ein solche Software realisiert wird. Ich nehme an mit java oder einer anderen hohen Programmiersprache.

Gruss
Franz
Professioneller Backlinkchecker mit Domainpop, Linkpop und PageRank-Anzeige.
- Automatisiert Linkpartner finden durch Themenrelevanz Vergleich
- Import von Backlinks aus den Suchmaschinen

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

SloMo
PostRank 10
PostRank 10
Beiträge: 4880
Registriert: 04.01.2005, 18:26

Beitrag von SloMo » 25.07.2005, 10:21

damael hat geschrieben:Ich nehme an mit java oder einer anderen hohen Programmiersprache.
Ist völlig sprachunabhängig. Perl, PHP, Python oder Java fallen mir für diesen Zweck auf Anhieb ein. Alles, was einigermaßen unkompliziert auf Webcontent zugreifen und auf Webservern laufen kann ist geeignet.

Ich finde es übrigens toll, dass endlich mal jemand keinen Content, sondern lieber den Code einer Pseudosuchmaschine klauen will. Hut ab! ;)

Gruß,
SloMo

damael
PostRank 3
PostRank 3
Beiträge: 74
Registriert: 26.04.2005, 01:59
Wohnort: Solothurn

Beitrag von damael » 25.07.2005, 10:32

Das Problem bei einer Lösung mit php ist natürlich, dass man mit php immer nur 60 sekunden lang den Server belasten kann. Man kann das umgehen, jedoch bleibt immernoch das Problem, dass es nach einer gewissen Zeit einfach zuviel ist für den Server und er das Skipt abbricht.

Ich kenne mich da leider, so wies aussieht, nicht genug gut aus.
Ich finde es übrigens toll, dass endlich mal jemand keinen Content, sondern lieber den Code einer Pseudosuchmaschine klauen will. Hut ab!
Gehört das mal wieder zu der Software die nirgends zu finden ist? Aber es gibt doch bestimmt jenste Programme die crawlen können. Genial wäre natürlich, wenn ich die Software selber programmieren könnte, und es nicht so ein kompiliertes Teil wäre.

Franz
Professioneller Backlinkchecker mit Domainpop, Linkpop und PageRank-Anzeige.
- Automatisiert Linkpartner finden durch Themenrelevanz Vergleich
- Import von Backlinks aus den Suchmaschinen

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

damael
PostRank 3
PostRank 3
Beiträge: 74
Registriert: 26.04.2005, 01:59
Wohnort: Solothurn

Beitrag von damael » 25.07.2005, 10:47

Ach ja ich brauche die Software übrigens für mein Projekt hier: www.wide-design.ch/linktester

Du siehst also, kein Content Klau. Aber für Spidersoftware Klau bekomm ich langsam immer mehr Lust...

Franz
Professioneller Backlinkchecker mit Domainpop, Linkpop und PageRank-Anzeige.
- Automatisiert Linkpartner finden durch Themenrelevanz Vergleich
- Import von Backlinks aus den Suchmaschinen

WWWeasel
PostRank 1
PostRank 1
Beiträge: 12
Registriert: 25.07.2005, 10:47

Beitrag von WWWeasel » 25.07.2005, 10:54

Ich persönlich setze da keinesfalls auf irgendwelche Websprachen. Auch wenn die Just-in-Time Compiler einiger Sprachen mittlerweile teilweise recht gut sein mögen, an die Performance von nativem Code kommen die dann doch nicht ran.

Unsere Software für WWWeasel ist in Borland Delphi erstellt. Bei Datenmengen von derzeit circa 11,8 Millionen Seiten (die 50gb belegen!) ist Performance einfach das Allerwichtigste.

SloMo
PostRank 10
PostRank 10
Beiträge: 4880
Registriert: 04.01.2005, 18:26

Beitrag von SloMo » 25.07.2005, 11:07

Google setzt Python ein. Ich denke die haben sich das ziemlich gut überlegt.

damael
PostRank 3
PostRank 3
Beiträge: 74
Registriert: 26.04.2005, 01:59
Wohnort: Solothurn

Beitrag von damael » 25.07.2005, 11:11

@WWWeasel
Gerade vorher habe ich mich über die ausgelassen, die deinen Bot aussperren wollten.

Habt ihr für WWWeasel den gesamten Bot selber programmiert? Oder gibt es eine Klasse die einem die Arbeit abnimmt?

Gruss
Franz
Professioneller Backlinkchecker mit Domainpop, Linkpop und PageRank-Anzeige.
- Automatisiert Linkpartner finden durch Themenrelevanz Vergleich
- Import von Backlinks aus den Suchmaschinen

WWWeasel
PostRank 1
PostRank 1
Beiträge: 12
Registriert: 25.07.2005, 10:47

Beitrag von WWWeasel » 25.07.2005, 12:52

@SloMo
Google setzt Python ein.
Für das Webfrontend oder für die internen Datenbankstrukturen? Ist das erste Mal dass ich davon höre, deswegen meine Neugier.

@damael
Habt ihr für WWWeasel den gesamten Bot selber programmiert?
Ist alles selbst gemacht. Es gibt zwar einige Klassenbibliotheken in Delphi für den reinen TCP/IP Kram, aber der macht eh nur einen winzigen Teil der Software aus. Weniger als 1%.

Alles zusammen sind es etwas über 10.000 Zeilen Sourcecode.

damael
PostRank 3
PostRank 3
Beiträge: 74
Registriert: 26.04.2005, 01:59
Wohnort: Solothurn

Beitrag von damael » 25.07.2005, 13:21

Ich habe mir ein paar Funktionen zum spidern in php gebaut.
Ist alles selbst gemacht. Es gibt zwar einige Klassenbibliotheken in Delphi für den reinen TCP/IP Kram, aber der macht eh nur einen winzigen Teil der Software aus. Weniger als 1%.
Töhnt schon interessant was du da sagst mit den hohen Programmiersprachen... lol

Vielleicht kennst du eine gute Spider-Software, die ich mit php füttern kann?
Professioneller Backlinkchecker mit Domainpop, Linkpop und PageRank-Anzeige.
- Automatisiert Linkpartner finden durch Themenrelevanz Vergleich
- Import von Backlinks aus den Suchmaschinen

depp ich
PostRank 9
PostRank 9
Beiträge: 1508
Registriert: 06.12.2004, 12:59

Beitrag von depp ich » 25.07.2005, 13:27

So wie ich das sehe brauchst du ja nur einen "nackten" Spider, du brauchst ja keinen Indexer oder irgendwas, das die Daten dann verarbeitet. Oder?
Das sollte ja schnell einmal gebastelt sein.

frolix
PostRank 1
PostRank 1
Beiträge: 19
Registriert: 16.04.2004, 14:33

Beitrag von frolix » 25.07.2005, 13:31

Swoas vielleicht ? https://phpcrawl.cuab.de/

pi-de
PostRank 6
PostRank 6
Beiträge: 406
Registriert: 22.03.2003, 11:06

Beitrag von pi-de » 25.07.2005, 14:20

SloMo hat geschrieben:Google setzt Python ein. Ich denke die haben sich das ziemlich gut überlegt.
Ne du, ehrlich nicht ;) Skriptsprachen eignen sich hier nicht.
Sowas wird eigentlich immer in C++ geschrieben.
Web.de hat auch die Logik in C++ und darüber liegt Python.
Aber ich habe gehört, dass sie auf Servlets umstellen wollen,
was aber nur das Frontend (Pythonteil) betreffen wird.

SloMo
PostRank 10
PostRank 10
Beiträge: 4880
Registriert: 04.01.2005, 18:26

Beitrag von SloMo » 25.07.2005, 14:44

pi-de hat geschrieben:
SloMo hat geschrieben:Google setzt Python ein. Ich denke die haben sich das ziemlich gut überlegt.
Ne du, ehrlich nicht ;) Skriptsprachen eignen sich hier nicht.
Sowas wird eigentlich immer in C++ geschrieben.
Web.de hat auch die Logik in C++ und darüber liegt Python.
Aber ich habe gehört, dass sie auf Servlets umstellen wollen,
was aber nur das Frontend (Pythonteil) betreffen wird.
Was meinst Du mit "sowas"? Bei den Hintergrund-Prozessen (Ranking, Aufbereitung der Daten) kann es sicherlich auf das Quäntchen mehr Performance ankommen. Aber bei einem Harvester/Spider ist die Internetanbindung der Flaschenhals. Da ist der Komfort und die einfache Verwendung einer Skriptumgebung ein wichtiges Kriterium.

Hier noch eine Quelle:
https://www.python.org/Quotes.html

Gruß,
SloMo

WWWeasel
PostRank 1
PostRank 1
Beiträge: 12
Registriert: 25.07.2005, 10:47

Beitrag von WWWeasel » 25.07.2005, 14:53

Aber bei einem Harvester/Spider ist die Internetanbindung der Flaschenhals.
Falsch. Die Internet-Anbindung stellt da überhaupt kein Problem dar. CPU-Leistung (zum Parsen und Verarbeiten der Seiten) und Festplattenzugriffe (bei der Indexerstellung) sind bei wirklich großen Datenmengen das Problem.

Beispiel: Ein Robot arbeitet ohne Weiteres mit 100 Seiten/Sekunde. Das sind dann Pi*Daumen etwa 3MB/s oder 24mbit/s. Das ist für die Internet-Anbindung ein Klacks. Aber 3MB HTML-Text pro Sekunde zu parsen und die Ergebnisse davon (etwa 30.000 Wörter und 2.500 Links) in einen Index einzufügen... aber hallo...

KeepCool
PostRank 8
PostRank 8
Beiträge: 715
Registriert: 02.01.2004, 11:55

Beitrag von KeepCool » 25.07.2005, 15:09

@pi-de
Ne du, ehrlich nicht [icon_wink.gif] Skriptsprachen eignen sich hier nicht.
Sowas wird eigentlich immer in C++ geschrieben.
Web.de hat auch die Logik in C++ und darüber liegt Python.
Python liegt weder "darüber" noch "darunter": Python hat einerseits den Vorteil, dass es als "Makrosprache" problemlos in C++-Anwendungen eingebettet werden kann, andrerseits lassen sich C++-Routinen bequem in Python-Anwendungen leicht und effizient einbinden.
Eine gekonnte und ausgewogene Mischung zw. Python und C++ ist für derartige Anwendungen (Suche) geradezu ideal.

Darüber hinaus wird Python zunehmend gern im Rahmen von Smartphone-Anwendungen genutzt (Handybereich)...In diesem Bereich kann man mit x Zeilen Python Anwendungen realisieren, für die man in C++ ca. das Zehnfache an Code benötigt...;-)
Dank Tkinter ist die GUI-Entwicklung mit Python auch um einiges schneller realisierbar als mit C++ und für Server- und Internetbasierten Anwendungen gibt es - auch bei zeitkritischen Anwendungen - kaum Performance-Verluste...im Gegensatz zu manch Java-Anwendung...:-):-):-)

Gruss,

KC

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag