Seite 1 von 1

Cloaking Gefahr bei Caching

Verfasst: 02.12.2006, 16:29
von Lars1
Hallo,

ich betreibe einen Preisvergleich und überlege Ergebnisse für den Preisvergleich zwischenzuspeichern.
Da der GoogleBot meine Seite ziemlich stark spidert (über 50000 Seiten pro Tag) wäre eine Idee, bei Aufruf durch den GoogleBot(Erkennung über User-Agent) zwischengespeicherte Ergebnisse und bei Aufruf normaler Nutzer immer eine Realtime-Abfrage auszuführen.
Resultierend daraus könnten die Ergebnisse für normale Nutzer und die, die dem GoogleBot angezeigt werden, variieren.
Ich bin mir unsicher, ob dies als Cloaking erkannt werden würde.
Was meint Ihr? Handelt es sich hierbei bereits um Cloaking?

Alternativ dazu müsste Caching für alle Aufrufe verwenden. Negativ hierbei wäre jedoch, dass die Nutzer nicht die aktuellsten Ergebnisse erhalten würden. Bei einigen Produkten ändern sich die Ergebnisse relativ häufig.

Viele Grüße
Lars

Verfasst:
von
SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Verfasst: 02.12.2006, 16:50
von HBurk
Bin da nicht ganz so Fit, aber wenn der Bot was anderes sieht als der User dann würde ich schon von Cloaking reden. Vor allen Dingen mußt Du aufpassen das der Mediapartner Google nicht was anderes sieht als der normale Google.

Könntest Du nicht generell cachen und via css und z-index den Aktuellen Preis drüber schreiben ???

Verfasst: 02.12.2006, 18:39
von acersun
also

1. wegen 50.000 hits würde ich nicht einmal einen gedanken dafür verschwenden, geschweige denn arbeit reinstecken

2. ist es ja gerade sinn der sache, daß der bot aktuelle informationen bekommt, sonst würde er ja nicht vorbeischauen. wenn du nicht willst dass er das so oft macht, kannst du ihn mit entsprechenden revisit-after metatags in die schranken weisen (die beachtet der googlebot doch, oder?)

Verfasst: 02.12.2006, 18:51
von HBurk
Klar mit einem vernüftigen Hosting im Kreuz braucht man sich darüber keine Gedanken machen, für ähnliche Sprüche habe ich hier aber schon mächtig Schelte bekommen, also sag ich besser nix weiter dazu.........

Es lebe das 3 Euro Hosting :idea:

Verfasst: 02.12.2006, 21:42
von Lars1
Hallo,

vielen Dank für Eure Antworten.
Bei den von mir erwähnten 50.000 Seitenaufrufen werden die XML-Schnittstellen mehrerer Shops realtime abgefragt.
Daraus resultierend entstehen Wartezeiten, die natürlich aufgrund der GoogleBot Anfragen sich erhöhen.

Viele Grüße
Lars

P.S.: Es handelt sich nicht um 3 EUR Hosting. Die Überlegungen sind nicht aufgrund des entstehenden Traffics sondern verfolgen das Ziel eine Performance-Steigerung und Reduzierung der Schnittstellenabfragen zu erreichen.

Verfasst: 02.12.2006, 23:13
von net(t)worker
Lars1 hat geschrieben: Bei den von mir erwähnten 50.000 Seitenaufrufen werden die XML-Schnittstellen mehrerer Shops realtime abgefragt.
Daraus resultierend entstehen Wartezeiten, die natürlich aufgrund der GoogleBot Anfragen sich erhöhen.
wäre es da nicht sinnvoll diese XML Abfragen zu cachen, und nur alle paar Stunden die aktuellen Daten aus den shops zu holen?

Verfasst: 02.12.2006, 23:47
von NeMeRo
also ich hatte mit einer ähnlichen problematik auch schon zu kämpfen.
ich habs dann genauso gelöst wie du vorgeschlagen hast.
ob der googlebot nun 2 oder 2 tage alte ergebnisse kriegt ist doch recht egal...

Verfasst: 03.12.2006, 03:26
von Scubi
Hi Lars1,

in der Regel sollte man Mitbewerbern ja keine Tips geben :-)

Ich mache es dennoch. Hast Du mal darüber nachgedacht deine Daten die du holst, zwischen zu speichern, ohne das jemand selbige sieht und dann nachts, wenn weniger los ist, dei Ergebnisse auf den Server zu spielen, der Usern und Bots das selbe anzeigt?

Evtl. habe ich Deine Frage auch nicht ganz verstanden.
Zeigst Du Daten, die auf deinem Server liegen, oder die Daten, die eigentlich auf anderen Servern liegen?

Meine: Generierst Du Seiten aus Daten anderer Server/Seiten?

Gruß Scubi

Verfasst: 03.12.2006, 21:01
von Lars1
Hallo,
wäre es da nicht sinnvoll diese XML Abfragen zu cachen, und nur alle paar Stunden die aktuellen Daten aus den shops zu holen?
Da es sich um ca. 900000 Produkte handelt würde eine sehr hohe Anzahl Anfragen entstehen, wenn ich regelmäßig alle Produkte aktualisieren würde. Dies ist auch kritisch, da die Schnittstellen oftmals eine Beschränkung der zulässigen Anfragen pro Tag besitzen.
Daher würde ich es bevorzugen, nur angefragte Bücher zu aktualisieren.
Also ich würde es wie net(t)worker machen.

Besorg Dir die Daten per xml oder wie auch immer und cache die direkt. Angezeigt werden die gecachten Daten, für den User und für den Bot. Und dann je nach Server läßt Du die einfach alle 60 / 30 / 10 Minuten aktuallisieren.

Selbst bei 10 Minuten wären das dann nur 6 Anfragen pro Stunde an die Schnittstelle, egal wieviele User/Bots Deine Seite besuchen. Aber welche Daten ändern sich schon alle 10 Minuten? Bei mir sind das meißt mehrere Tage oder Wochen für ein Produkt.
Ich verstehe Deine Rechnung nicht: "Bei 10 Minuten wären es nur 6 pro Stunde". 6 pro Stunde und pro Produkt oder nicht?

Bezüglich der benötigten Aktualität der Daten möchte ich noch erwähnen, dass in dem Preisvergleich teilweise von Marktplätzen berücksichtigt werden, auf denen Einzelstücke angeboten werden. Ich bin mir unsicher, welches Intervall OK wäre. Es besteht jedoch immer das Risiko, dass das Einzelstück verkauft wird und somit mein gecachtes Ergebnis veraltet ist.
Habe Bedenken, weil die Kundenzufriedenheit sehr stark darunter leitet, wenn nach Klick auf ein Angebot dieses nicht mehr existiert.


Um das zu verhindern war meine Grundidee die folgende:
Alle Aufrufe normaler User erhalten Realtime Daten, die gleichzeitig in meiner lokalen Datenbank gespeichert werden.
Bei Zugriffen des GoogleBots werden diese Daten dann angezeigt. Die Aktualität der Daten ist hierbei nicht wichtig.
Meine entscheidende Frage ist nur, ob ich bei diesem Vorgehen eine Bestrafung aufgrund Cloaking riskiere. Laut NeMeRo ist es ja kein Problem.
Die Daten variieren in der Form, dass die dargestellten Produkteigenschaften auf beiden Seiten gleich sind. Lediglich die in einer Tabelle dargestellten Angebote der einzelnen Anbieter werden sich unterscheiden können (unterschiedliche Preise, Angebote können nicht mehr existieren).
Ist das gefährlich?

Vielen Dank für Eure Hilfe.

Lars

Verfasst: 15.12.2006, 14:52
von Lars1
Hallo,

da ich mir immer noch unsicher bin, ob ich die angedachte Idee umsetzen sollte, schieb ich diesen Beitrag noch mal nach oben. Ich hoffe, dass das OK ist.
Ich würde gerne Eure Einschätzungen bezüglich des beschriebenen Problems erhalten:
Ist es aus Cloaking Gesichtspunkten kritisch, wenn die angezeigten Seiten für User und Bots in folgender Weise variieren:
In einer einer Tabelle werden die Angebote der Anbieter zu einen bestimmten Produkt dargestellt (Anbieterlogo, Preis, Verfügbarkeit, Versandkosten, Link zu Angebot). Die beiden Versionen(für User und für Bots) können sich dann durch unterschiedliche Daten oder durch Fehlen bestimmter Angebote eines Anbieters (falls Produkt nicht mehr lieferbar) unterscheiden. Die Produktinformationen beider Seiten werden identisch sein.
Gehe ich mit dieser Vorgehensweise ein Risiko ein?

Danke für Eure Einschätzungen.

Viele Grüße
Lars