Seite 1 von 2

Seite soll 1x komplett gecrawled bzw. gespidert werden -Wie?

Verfasst: 13.05.2005, 08:07
von Christian Reder
Hallo zusammen!

Ich will erreichen, das jede Seite einer dynamischen Webpräsenz mit vieeeeeelen Seiten einmal angezeigt wird.
Gibt es ein Tool, dass ich auf meine Seite ansetzen kann?

Wie gesagt, ich will erreichen, das in möglichst kurzer Zeit JEDE Seite meiner Präsenz 1x angezeigt wird.


Ideen?

Chris

Verfasst:
von

Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Seite soll 1x komplett gecrawled bzw. gespidert werden -Wie?

Verfasst: 13.05.2005, 08:58
von Metaman
wie oder wo sollen Die Seiten denn gezeigt werden??
willst du dem User der die Startseite aufruft, in einer Art Vorschau alle Seiten zeigen?

Da bleibe eigentlich nur die möglichkeit, die Seite in einem Frame oder ähnlichen anzuzeigen und dann mit einer weiterleitung sofort auf die nächste Seite zu springen.

oder aber du machst einen Screenshot jeder Seite und erstellst sozusagen einen Film..

Seite soll 1x komplett gecrawled bzw. gespidert werden -Wie?

Verfasst: 13.05.2005, 10:43
von Christian Reder
Nee!

Auf den Seiten ist ein PHP-Script includiert und ich möchte, dass jede Seite einmal aufgerufen wird und somit das Script (für die jeweilige Seite) ausgeführt wird.

Es soll praktisch simuliert werden, dass jemand ALLE Seiten meiner Präsenz absurft.

Jemand ne Idee?

Verfasst:
von

Seite soll 1x komplett gecrawled bzw. gespidert werden -Wie?

Verfasst: 13.05.2005, 10:46
von Bimbel
Nimm doch einfach wget und lade dir einmal die Seite rekursiv runter.

Seite soll 1x komplett gecrawled bzw. gespidert werden -Wie?

Verfasst: 13.05.2005, 10:52
von Christian Reder
@Bimbel

Danke schonmal für die Antwort. Leider fehlt mir das Fachwissen um eine Seite einfach einmal mit wget rekursiv runterzuladen.

Kannst Du mit das genauer erläutern?

Chris

Seite soll 1x komplett gecrawled bzw. gespidert werden -Wie?

Verfasst: 13.05.2005, 11:16
von Bimbel
Du besorgst dir die für dein Betriebssystem passende Version von wget und kannst es dann wie folgt herunterladen:
wget -r -l0 https://www.domain.de

Gegebenenfalls noch mit den entsprechenden Parametern (wget --help hilft ;) ) auf einzelne Dateitypen einschränken.

Seite soll 1x komplett gecrawled bzw. gespidert werden -Wie?

Verfasst: 13.05.2005, 11:31
von AnjaK
warum machst du nicht einfach ein Trace über deine ganze Seite.
Es ist eigentlich recht einfach einen Spider für die eigene Seite zu programmieren:

a) Rufe Startseite auf und folge ALLEN internen Links
b) speichere die gefunden URLs in einer Keksvariable
c) verfolge auf jeder gefunden Seite jede URL, die noch nicht gefunden wurde.

fertig.

Im Prinzip ein 5-Zeiler in PHP:

Seite soll 1x komplett gecrawled bzw. gespidert werden -Wie?

Verfasst: 13.05.2005, 11:31
von Metaman
https://www.raiffeisen.it/imperia/md/co ... lus/13.pdf
ist eine kleine erklärung die ich gerade gefunden hab

aber ob es das ist was du suchst???

Seite soll 1x komplett gecrawled bzw. gespidert werden -Wie?

Verfasst: 13.05.2005, 11:39
von Christian Reder
Ja ungefähr,
nur hab ich keine Lust mir mehrere GigaByte an Daten auf den Desktop zu laden.
Gibts sowas nicht online?

Seite soll 1x komplett gecrawled bzw. gespidert werden -Wie?

Verfasst: 13.05.2005, 11:49
von Bimbel
Mehrere Gigabyte an Daten? Dann brauchst du aber schon eine extrem umfangreiche Seite, Bilder etc. kannst du ja aussen vorlassen..

Seite soll 1x komplett gecrawled bzw. gespidert werden -Wie?

Verfasst: 13.05.2005, 11:53
von Christian Reder
Ja -> die Seite ist seeeeeeeehr Umfangreich das dynamisch aus Datenbank generiert.
Ja -> Bilder kann ich uassen vor lassen
Nein -> Will mir das Teil nicht runterladen

Will nur erreichen, dass jede Seite einmal aufgerufen wird.

:roll: :roll: :roll:

Seite soll 1x komplett gecrawled bzw. gespidert werden -Wie?

Verfasst: 13.05.2005, 11:57
von AnjaK
Also wenn das Teil aus der Datenbank generiert ist, dann versteh ich dein Problem nicht. Dann hast du doch jede URL in der Datenbank.
Eine kombinierte SQL-Anweisung und diese URLs aufrufen...

Verfasst: 13.05.2005, 12:06
von Metaman
es wäre vielleicht auch hilfreich wenn du uns den Sinn der ganzen Aktion mitteilst.
denn für mich und sich auch für andere höhrt es sich doch etwas sinnlos an, wenn man alle Seiten einer Homepage einmal aufrufen lassen will???

eventuell könnte da ein kleines Javascript weiterhelfen.
erstell einfach eine Seite mit folgenden Script

Code: Alles auswählen

<script language="JavaScript">
<!--

var url = new Array&#40;"URL1", "URL2","URL3"&#41;;
var zeit = new Array&#40;2000,2000,2000&#41;;
var u = 0;
var z = 0;

function oeffnen&#40;&#41;
&#123;
  kleinesfenster = open&#40;"blau.htm", "neuesfenster", "width=300,height=300"&#41;;
  setTimeout&#40;'steuern&#40;&#41;', 2000&#41;;
&#125;

function steuern&#40;&#41;
&#123;
  kleinesfenster.location.href = url&#91;u&#93;;
  u += 1;
  setTimeout&#40;'steuern&#40;&#41;', zeit&#91;z&#93;&#41;;
  z += 1;
if &#40;&#40;z == zeit.length&#41; || &#40;u == url.length&#41;&#41; &#123; z = 0; u = 0; &#125;
&#125;

//-->
</script>
das ganze wird dann mit dem Body Tag aufgerufen

Code: Alles auswählen

<body onload="oeffnen&#40;&#41;">
must jetzt nur noch die urls eintragen und die entsprechenden Zeiten.

Seite soll 1x komplett gecrawled bzw. gespidert werden -Wie?

Verfasst: 13.05.2005, 14:02
von Christian Reder
der Sinn?

Also die Seiten werden nicht nur aus der Datenbank generiert, sondern es werden dort auch Daten via Webservices integriert. Per PHP schreibe ich dann diese via Webservices empfangenen Daten in die Datenbank. Da ich nicht jeden Datensatz der Webservices (ca. 1.000.000 Datensätze!) händisch abrufen möchte, sondern automatisch in Abhängigkeit vom jeweiligen Seiteninhalt muss eben jede Seite 1x aufgerufen werden um die Daten via Webservice zu empfangen und dann in die DB zu schreiben.

ich weiß nicht, wie ichs anders erklären soll????

Danke trotzdem

Seite soll 1x komplett gecrawled bzw. gespidert werden -Wie?

Verfasst: 13.05.2005, 14:48
von Lutz-Development
Hi,

warte doch einfach, bis ein Besucher die Arbeit für dich erledigt. Warum schon im Voraus die Arbeit machen?

Gruß,
Thomas