Seite 1 von 1

gespidert aber nicht im index

Verfasst: 25.07.2005, 13:35
von bydlo
salut leute,
es geht grade um die indizierung eines XTC.
ca 20 dateien sind am 18ten &am 19ten nochmal (also schon vor einer Woche) gespidert worden aber bis jetzt noch nicht im index.
woran kann das liegen?

sehe bei anderen projekten teilweise alte positionierungen von vor über 2 wochen.
sieht nach alten datenbeständen aus.
allerdings auch bei mehrern DCs.
könnte das ein grund sein für o.g. problem?
könnt ihr das mit den alten daten bestätigen?
gruss axel
-----------------------EDIT-------------------------------------------------
nach dem letzten spiderdurchgang wurde ne robots angelegt und seitdem nichts mehr aus dem shop sondern bloss noch die website gecrawlt.
sieht also fast so aus als ob ich da was verboten hätte.
kann aber in der robots nix fehlerhaftes finden.
manchmal sieht man ja den wald vor lauter bäumen nicht, deshalb poste ich sie mal .vielleicht sieht ja jemand von euch was.
User-agent: *
Disallow: /toner-shop/address_book_process.php
Disallow: /toner-shop/account.php
Disallow: /toner-shop/account_edit.php
Disallow: /toner-shop/account_edit_process.php
Disallow: /toner-shop/account_history.php
Disallow: /toner-shop/account_history_info.php
Disallow: /toner-shop/address_book.php
Disallow: /toner-shop/checkout_process.php
Disallow: /toner-shop/advanced_search.php
Disallow: /toner-shop/advanced_search_result.php
Disallow: /toner-shop/checkout_address.php
Disallow: /toner-shop/checkout_confirmation.php
Disallow: /toner-shop/checkout_payment.php
Disallow: /toner-shop/checkout_success.php
Disallow: /toner-shop/contact_us.php
Disallow: /toner-shop/create_account.php
Disallow: /toner-shop/create_account_guest.php
Disallow: /toner-shop/create_account_process.php
Disallow: /toner-shop/create_account_success.php
Disallow: /toner-shop/info_shopping_cart.php
Disallow: /toner-shop/login.php
Disallow: /toner-shop/logoff.php
Disallow: /toner-shop/password_double_opt.php
Disallow: /toner-shop/popup_image.php
Disallow: /toner-shop/popup_search_help.php
Disallow: /toner-shop/privacy.php
Disallow: /toner-shop/product_notifications.php
Disallow: /toner-shop/product_reviews.php
Disallow: /toner-shop/product_reviews_info.php
Disallow: /toner-shop/reviews.php
Disallow: /toner-shop/shipping.php
Disallow: /toner-shop/admin/
Disallow: /toner-shop/export/
Disallow: /toner-shop/download/
Disallow: /toner-shop/includes/
Disallow: /toner-shop/pub/
Disallow: /toner-shop/media/

Verfasst:
von

Verfasst: 25.07.2005, 20:57
von bydlo
hallo leute,
was ist denn los?
hat keiner ne idee?
oder wenigsten ein "ja sehe auch alten datenbestand" oder sowas?
NÜSCHT?
gruss axel

gespidert aber nicht im index

Verfasst: 25.07.2005, 21:07
von Chris2005
Das sieht sehr nach einem robots.txt Problem aus. Kenne mich aber nicht mit dem XTC aus, daher sagen mir die Dateinamen nix. Vielleicht ist da was wichtiges dabei...

Alter Datenbestand läuft mir auch des öfteren über den Weg. Aber bei Dir müsste ja zumindestens irgendwas im Index erscheinen...

Verfasst:
von

Re: gespidert aber nicht im index

Verfasst: 25.07.2005, 21:37
von bydlo
Chris2005 hat geschrieben:
Alter Datenbestand läuft mir auch des öfteren über den Weg. Aber bei Dir müsste ja zumindestens irgendwas im Index erscheinen...
ahoi chris,
nicht unbedingt! wenn die daten die ich sehe wirklich alt sind und von vor dem 18ten dann ist das schon ok. weil vorher gabs den XTC nicht.
werd einfach nochmal ein paar tage warten.
wenn der bot dann nix frisst werd ich die robots einfach mal komplett rausschmeissen & sehen was passiert.
gruss axel

gespidert aber nicht im index

Verfasst: 25.07.2005, 23:56
von Steffi
also bei mir sind vor 2 Tagen etwa 10 neue Seiten im Index aufgetaucht und zudem konnte ich so einige Seiten aus dem "weitere Seiten anzeigen"-Filter holen


glaube daher nicht unbedingt an alten Datenbestand...

gespidert aber nicht im index

Verfasst: 26.07.2005, 00:24
von Chris2005
Kann evtl. noch an den Nachwehen des Updates liegen.

Andererseits: Google hat seit ein paar Wochen die Angewohnheit bestimmte Cache-Inhalte (trotz täglichen spiderns) auf das Datum des letzten Deep-Crawls zu setzen.

Auf der anderen Seite, wenn es wirklich an der robots.txt liegt, ist Googles Verhalten plausibel. G-Bot hat die Seiten gespidert, am nächsten Tag die robots.txt gefunden, hat somit keine Links mehr auf den tieferliegenden Inhalt und pumpt die Dateien gar nicht in den Index. Ich hatte am WE einen Serverausfall (bzw. mein Provider) und Google konnte einen Tag nix spidern. Ruckzuck waren 5-6 (neue) Seiten raus aus dem Index. Heute sind sie wieder drin, da Google sich die Sachen heute morgen frisch gezogen hat.

[edit] Nachtrag: Gerade mal bei yourcache.com geguckt. doch noch erhebliche Differenzen zwischen den DCs. Vielleicht findest Du ja irgendein DC, das die Daten doch gespeichert hat.