Seite schlecht crawlbar bzw. Fehler in der robots.txt?
Verfasst: 19.05.2011, 12:01
Hallo,
vor ca. 5 Monaten habe ich unsere Seite bei yahoo angemeldet. Seitdem sind von ca. 1400 Seiten ganze 148 Seiten im Index - was doch schon arg wenig ist und das obwohl der yahoo-bot täglich auf der Seite unterwegs ist. Auch in den WMT sinkt die Zahl der indexierten Seiten ständig (aktuell 1035 - die site-Abfrage bei google liefert 370 Ergebnisse, vor 2 Tagen waren es noch 500) Sicher besitzt der ein oder andere Artikel eine (teilweise abgeänderte) Herstellerbeschreibung, aber der Großteil der Artikelbeschreibungen sind unique und umfangreich, weshalb ich das gar nicht verstehen kann.
Evtl. ist unsere Seite auch schlecht crawlbar (URL gibts erst in ein paar Tagen, da wir aktuell den Shop umstellen - z.Z. ist er noch auf dem "alten" Stand). Vielleicht gibt es auch Probleme mit der robots.txt, wäre nett wenn ihr mal schnell drüber schauen könntet, da wir ziemlich ratlos sind.
# Sitemap
Sitemap: https://www.xxxxxxxx/sitemap.xml
# Crawlers Setup
User-Agent: *
# Directories
Disallow: /404/
Disallow: /app/
Disallow: /downloader/
Disallow: /extern/
Disallow: /includes/
Disallow: /js/
Disallow: /lib/
Disallow: /media/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /skin/
Disallow: /stats/
Disallow: /var/
# Paths (clean URLs)
Disallow: /index.php/
Disallow: /catalog/product_compare/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /customer/
Disallow: /customize/
Disallow: /newsletter/
Disallow: /poll/
Disallow: /report/
Disallow: /review/
Disallow: /rss/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/
# Files
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /RELEASE_NOTES.txt
# Paths (no clean URLs)
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*?
#Disallowed Bots
User-Agent: Yandex
Disallow: /
vor ca. 5 Monaten habe ich unsere Seite bei yahoo angemeldet. Seitdem sind von ca. 1400 Seiten ganze 148 Seiten im Index - was doch schon arg wenig ist und das obwohl der yahoo-bot täglich auf der Seite unterwegs ist. Auch in den WMT sinkt die Zahl der indexierten Seiten ständig (aktuell 1035 - die site-Abfrage bei google liefert 370 Ergebnisse, vor 2 Tagen waren es noch 500) Sicher besitzt der ein oder andere Artikel eine (teilweise abgeänderte) Herstellerbeschreibung, aber der Großteil der Artikelbeschreibungen sind unique und umfangreich, weshalb ich das gar nicht verstehen kann.
Evtl. ist unsere Seite auch schlecht crawlbar (URL gibts erst in ein paar Tagen, da wir aktuell den Shop umstellen - z.Z. ist er noch auf dem "alten" Stand). Vielleicht gibt es auch Probleme mit der robots.txt, wäre nett wenn ihr mal schnell drüber schauen könntet, da wir ziemlich ratlos sind.
# Sitemap
Sitemap: https://www.xxxxxxxx/sitemap.xml
# Crawlers Setup
User-Agent: *
# Directories
Disallow: /404/
Disallow: /app/
Disallow: /downloader/
Disallow: /extern/
Disallow: /includes/
Disallow: /js/
Disallow: /lib/
Disallow: /media/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /skin/
Disallow: /stats/
Disallow: /var/
# Paths (clean URLs)
Disallow: /index.php/
Disallow: /catalog/product_compare/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /customer/
Disallow: /customize/
Disallow: /newsletter/
Disallow: /poll/
Disallow: /report/
Disallow: /review/
Disallow: /rss/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/
# Files
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /RELEASE_NOTES.txt
# Paths (no clean URLs)
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*?
#Disallowed Bots
User-Agent: Yandex
Disallow: /