Datenverwaltung von 200.000 Einträgen
Verfasst: 13.02.2012, 12:55
Hallo zusammen,
ich habe folgendes Problem.
Mein Datenformat ist eine Preisliste eines Herstellers, die aus ca. 200.000 Zeilen besteht. Es gibt keine Trennzeichen, sondern eine Trennung nach Positionen im String.
Nun möchte ich für jede dieser Zeilen eine Unterseite im Format:
domain.tld/artikelnummer
generieren und diese sauber verknüpfen.
Einige Artikel haben Umschlüsselungen drin, die auf andere Artikel verweisen. (wieder einfach eine Artikelnummer, die mitten im String an einer Position steht)
Andere Artikel haben ein Vermerk für "Sonderbestellungen", die es nur sehr teuer über das Ausland gibt.
Es kann also sein, dass folgende Logiken entstehen
Artikel A (ausverkauft) -> Artikel B (ausverkauft) -> Artikel C (verfügbar)
Artikel A (ausverkauft) -> Artikel B (Sonderbestellung)
Nun will ich natürlich bei der Sucheingabe von A oder B direkt auf C verweisen und dort hinterlegen, dass es der Ersatzartikel ist.
Mehr Infos gibt die Liste eigentlich nicht her .. die Frage wäre:
Wie würdet ihr sie versuchen komplett in den Index zu bekommen?
Eine 100 MB große Sitemap wäre vielleicht etwas viel, oder?
Eine große Logik hinter den Nummern ist nur relativ begrenzt vorhanden.
Einige kann ich darüber packen und ihnen Jahreszahlen zuordnen ... andere hingegen nicht.
Jemand eine Idee, wie man das umsetzen könnte?
Bisher dachte ich an einen Parser, der die Daten trennt und sie direkt in eine MySQL schreibt. Dazu ein Script, welches aus dem Daten statische Seiten erzeugt. Nur die gigantische Anzahl macht mir ein wenig Sorgen.
Freue mich über Anregungen.
Zur Darstellung hab ich an sowas hier gedacht:
https://www.tsep.info/php/cms/
Quasi eine ganz schlanke Startseite á la Google, die dann direkt die Ergebnisse und Preise ausspuckt.
Gruß El
ich habe folgendes Problem.
Mein Datenformat ist eine Preisliste eines Herstellers, die aus ca. 200.000 Zeilen besteht. Es gibt keine Trennzeichen, sondern eine Trennung nach Positionen im String.
Nun möchte ich für jede dieser Zeilen eine Unterseite im Format:
domain.tld/artikelnummer
generieren und diese sauber verknüpfen.
Einige Artikel haben Umschlüsselungen drin, die auf andere Artikel verweisen. (wieder einfach eine Artikelnummer, die mitten im String an einer Position steht)
Andere Artikel haben ein Vermerk für "Sonderbestellungen", die es nur sehr teuer über das Ausland gibt.
Es kann also sein, dass folgende Logiken entstehen
Artikel A (ausverkauft) -> Artikel B (ausverkauft) -> Artikel C (verfügbar)
Artikel A (ausverkauft) -> Artikel B (Sonderbestellung)
Nun will ich natürlich bei der Sucheingabe von A oder B direkt auf C verweisen und dort hinterlegen, dass es der Ersatzartikel ist.
Mehr Infos gibt die Liste eigentlich nicht her .. die Frage wäre:
Wie würdet ihr sie versuchen komplett in den Index zu bekommen?
Eine 100 MB große Sitemap wäre vielleicht etwas viel, oder?
Eine große Logik hinter den Nummern ist nur relativ begrenzt vorhanden.
Einige kann ich darüber packen und ihnen Jahreszahlen zuordnen ... andere hingegen nicht.
Jemand eine Idee, wie man das umsetzen könnte?
Bisher dachte ich an einen Parser, der die Daten trennt und sie direkt in eine MySQL schreibt. Dazu ein Script, welches aus dem Daten statische Seiten erzeugt. Nur die gigantische Anzahl macht mir ein wenig Sorgen.
Freue mich über Anregungen.
Zur Darstellung hab ich an sowas hier gedacht:
https://www.tsep.info/php/cms/
Quasi eine ganz schlanke Startseite á la Google, die dann direkt die Ergebnisse und Preise ausspuckt.
Gruß El