Mein Datenformat ist eine Preisliste eines Herstellers, die aus ca. 200.000 Zeilen besteht. Es gibt keine Trennzeichen, sondern eine Trennung nach Positionen im String.
Nun möchte ich für jede dieser Zeilen eine Unterseite im Format: domain.tld/artikelnummer
generieren und diese sauber verknüpfen.
Einige Artikel haben Umschlüsselungen drin, die auf andere Artikel verweisen. (wieder einfach eine Artikelnummer, die mitten im String an einer Position steht)
Andere Artikel haben ein Vermerk für "Sonderbestellungen", die es nur sehr teuer über das Ausland gibt.
Es kann also sein, dass folgende Logiken entstehen
Artikel A (ausverkauft) -> Artikel B (ausverkauft) -> Artikel C (verfügbar)
Artikel A (ausverkauft) -> Artikel B (Sonderbestellung)
Nun will ich natürlich bei der Sucheingabe von A oder B direkt auf C verweisen und dort hinterlegen, dass es der Ersatzartikel ist.
Mehr Infos gibt die Liste eigentlich nicht her .. die Frage wäre:
Wie würdet ihr sie versuchen komplett in den Index zu bekommen?
Eine 100 MB große Sitemap wäre vielleicht etwas viel, oder?
Eine große Logik hinter den Nummern ist nur relativ begrenzt vorhanden.
Einige kann ich darüber packen und ihnen Jahreszahlen zuordnen ... andere hingegen nicht.
Jemand eine Idee, wie man das umsetzen könnte?
Bisher dachte ich an einen Parser, der die Daten trennt und sie direkt in eine MySQL schreibt. Dazu ein Script, welches aus dem Daten statische Seiten erzeugt. Nur die gigantische Anzahl macht mir ein wenig Sorgen.
Wegen Sitemapgröße: Du kannst in einer Sitemap auf weitere Sitemaps verweisen. Damit bekommst du dann quasi "beliebig" viele Unterseiten in deiner Sitemap, bzw. deinen Sitemaps, unter.
Wegen der Umsetzung: Wozu den Umweg über MySQL gehen? Je nach dem, mit welcher Programmiersprache du das ganze machst, kannst du dir das sparen und direkt aus der Liste die statischen Seiten generieren. 200.000 Zeilen ist nicht gerade viel.
Und wozu brauchst du ein CMS, wenn du eh statisch Seiten erzeugen willst?
ich bin noch nicht sicher, wie ich da eine logische Aufteilung machen soll, da die Liste einfach alphabetisch sortiert ist. Also könnte ich maximal nach 0..9 / a..z "Untersitemaps" machen. Das wären dann vielleicht nur noch 5-10k Einträge pro Sitemap.
Die Datenbank wollte ich verwenden, da die Updates so ggfs. schnell eingespielt werden könnten. Wollte ungern 200.000 Dateien offline generieren, packen, hochspielen und wieder entpacken. Die einzelne Textdatei einzuspielen und kurz nen Update-Link aufzurufen wäre da die bequemere Lösung.
Wie würdest Du das denn aufbauen? Grad wenn ich eine 2. Liste mit Artikelnummern und Shop-Links hinterlegen will, wäre es in der Form schon ganz nett. Ein gewisser Teil der Artikel ist bei mir im Onlineshop - diese würd ich gern verlinken.
Da die Verteilung sicher nicht gleichmäßig wird, gäb das schon ein kleines Problem
Aber bevor ich die Daten nicht komplett eingelesen und geparsed hab, kann ich eh noch nicht sage, welche Artikel wirlich über bleiben und was umgeschlüsselt ist.