Seite 1 von 2

Seite schlecht crawlbar bzw. Fehler in der robots.txt?

Verfasst: 19.05.2011, 12:01
von Manu v6
Hallo,

vor ca. 5 Monaten habe ich unsere Seite bei yahoo angemeldet. Seitdem sind von ca. 1400 Seiten ganze 148 Seiten im Index - was doch schon arg wenig ist und das obwohl der yahoo-bot täglich auf der Seite unterwegs ist. Auch in den WMT sinkt die Zahl der indexierten Seiten ständig (aktuell 1035 - die site-Abfrage bei google liefert 370 Ergebnisse, vor 2 Tagen waren es noch 500) Sicher besitzt der ein oder andere Artikel eine (teilweise abgeänderte) Herstellerbeschreibung, aber der Großteil der Artikelbeschreibungen sind unique und umfangreich, weshalb ich das gar nicht verstehen kann.

Evtl. ist unsere Seite auch schlecht crawlbar (URL gibts erst in ein paar Tagen, da wir aktuell den Shop umstellen - z.Z. ist er noch auf dem "alten" Stand). Vielleicht gibt es auch Probleme mit der robots.txt, wäre nett wenn ihr mal schnell drüber schauen könntet, da wir ziemlich ratlos sind.


# Sitemap
Sitemap: https://www.xxxxxxxx/sitemap.xml

# Crawlers Setup
User-Agent: *

# Directories
Disallow: /404/
Disallow: /app/
Disallow: /downloader/
Disallow: /extern/
Disallow: /includes/
Disallow: /js/
Disallow: /lib/
Disallow: /media/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /skin/
Disallow: /stats/
Disallow: /var/

# Paths (clean URLs)
Disallow: /index.php/
Disallow: /catalog/product_compare/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /customer/
Disallow: /customize/
Disallow: /newsletter/
Disallow: /poll/
Disallow: /report/
Disallow: /review/
Disallow: /rss/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/

# Files
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /RELEASE_NOTES.txt

# Paths (no clean URLs)
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*?

#Disallowed Bots
User-Agent: Yandex
Disallow: /

Verfasst:
von




Erfolgreiche und optimale Nutzung mit Magento Shopsystemen! Nutzen Sie unsere jahrelange Erfahrung mit Magento Shopsystemen und lassen Sie sich beraten!


Lesen Sie die wichtigsten Magento-Optimierungsmaßnahmen oder kontaktieren Sie uns direkt unter: 0511 / 300325-0


Verfasst: 19.05.2011, 12:14
von Hirnhamster
Ohne zu wissen, wie die URL Struktur deiner HP aussieht können wir mit der robots.txt nix anfangen..

Verfasst: 19.05.2011, 12:22
von Effi Ziens
Howdy, warum meldest du deine Seiten an? Das ist Zeitverschwendung.

Zeige uns mal deine URL Struktur, aber ich bin mir sicher, es liegt nicht unbedingt daran. Zudem hast du ja eine Sitemap hinterlegt. Wie viele Backlinks hast du
a) auf der Startseite?
b) auf Unterseiten?

Zudem kannst du eine Web-Sitemap online stellen, damit Google und Co. sich dort entlang hangeln kann.

Meine eigene Erfahrung ist, dass die Sitemap weniger bringt, wenn man nicht auch gute Onpage-Optimierung betreibt. Also nur weil eine Sitemap eingereicht wird, bedeutet es nicht, dass Google auch alle deine Seiten aufnimmt.

Verfasst:
von

Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Verfasst: 19.05.2011, 12:30
von Manu v6
das über yahoo nicht viel kommt ist mir klar - aber schaden tut die Anmeldung ja auch nicht. Es wundert uns eben nur, dass so wenig Seiten in yahoo drin sind, obwohl der bot fleißig crawlt.

Online-Sitemap klingt interessant - werde ich mich mal umgooglen.

Unsere Kategorien sind schon ziemlich verschachtelt, bzw. haben teilweise 1, 2 oder sogar 3 Unterkategorien. Das dies eher negativ für google ist, ist uns auch klar (ja ja, "macht eurer Seiten für den User"...) Das ist ein Punkt, warum wir die Seite aktuell ändern.

Ich melde mich sobald die Änderung durch ist, dann wäre es nett wenn ihr mal auf die Seite schauen könntet. Danke erstmal!

Verfasst: 19.05.2011, 12:40
von Effi Ziens
Schaden tut es sicher nichts, dir sollte nur bewußt sein, dass es kein Garant dafür ist, komplett im Index bei Yahoo zu landen. Übrigens ist Yahoo da sowieso ein bisschen träger als Google.

Eine Sitemap macht absolut Sinn, du solltest jedoch nicht mehr als 50-60 Links auf einer Seite platzieren. Mach dafür eine Pagination.

3 Unterkategorien könnte wirklich zu viel sein, 1-2 sollten es maximal sein. Und achte auf interne Verlinkung, du kannst ja vielleicht die Seiten untereinander anlinken. Google liebt dich dafür.

Verfasst: 23.05.2011, 10:27
von fiacyberz
Entferne mal die Einträge in der robots.. und zwar alle ausser Sitemap und dann stell die Seiten die du nicht im index haben willst auf noindex per meta-tag
Dann klappts auch mit der Indizierung

Verfasst: 23.05.2011, 10:39
von Synonym
@fiacyberz
Würdest Du bitte mal die Seiten auf NOINDEX stellen....
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /RELEASE_NOTES.txt
@Manu v6
Ohne URL ist keine Antwort möglich.

Verfasst: 23.05.2011, 16:17
von fiacyberz
License.txt & Co gehört auf keine Website...
Und die cron.php/sh gehört ebenfalls in ein Verzeichnis welches nicht von außen so einfach aufrufbar ist.

Verfasst: 23.05.2011, 16:34
von Synonym
License.txt & Co gehört auf keine Website...
Hm, und wenn die Nutzung eben genau die Bekanntgabe der Lizenz erfordert? Ich kenne Magento nicht, aber einfach so entfernen darf man die OSL wohl auch nicht.

Verfasst: 30.05.2011, 11:07
von Manu v6
License und cron müssen drin bleiben. Die chron-jobs müssen auch von außen zugänglich sein, um ausgeführt zu werden.

Ansonsten machen wir die robots.txt schlank und regelen mehr um noindex.

Danke euch!

Verfasst: 31.05.2011, 13:17
von fiacyberz
Synonym hat geschrieben:Hm, und wenn die Nutzung eben genau die Bekanntgabe der Lizenz erfordert? Ich kenne Magento nicht, aber einfach so entfernen darf man die OSL wohl auch nicht.
Ich kenne kein System wo dies erforderlich ist. Und wenn würde ich es nie nutzen, einfacher kann man es Hackern nicht machen.
Manu v6 hat geschrieben:Die chron-jobs müssen auch von außen zugänglich sein, um ausgeführt zu werden.
Nein müssen sie nicht, es sei denn du nutzt cronjob.de oder ähnliches, aber da würde ich eher ordentlichen Webspace/Server besorgen.
Ich weiß nicht was dein cron macht, aber ich kann ja mal nen Bot raufschicken 100x die Sekunde, mal schaun ob dass dann für dich ok ist ;)

Verfasst: 31.05.2011, 13:29
von Synonym
Ich kenne kein System wo dies erforderlich ist.
Dann bist Du wohl erst seit 2 Wochen im Netz tätig. Es gibt hunderte und tausende Seiten, bei denen eine Lizenz öffentlich genannt werden muss. Das ist schon Bestandteils der Lizenz und eben auch der Software bzw. anderen Dingen.

Verfasst: 31.05.2011, 13:48
von lois69
@Effi ziens

die obergrenze von 100 links ca gibt es schon lange nicht mehr

Verfasst: 31.05.2011, 21:07
von dp-wurzel
hmm sicher das dass bei Yahoo funktioniert?

Code: Alles auswählen

Disallow: /*? 
Der Googlebot kommt ja damit klar, aber Yahoo? Vielleicht lässt der alles hinter dem Platzhalter weg und es wird daraus?

Code: Alles auswählen

Disallow: / 
MfG dp-wurzel

Verfasst: 01.06.2011, 10:36
von fiacyberz
Synonym hat geschrieben:Dann bist Du wohl erst seit 2 Wochen im Netz tätig. Es gibt hunderte und tausende Seiten, bei denen eine Lizenz öffentlich genannt werden muss. Das ist schon Bestandteils der Lizenz und eben auch der Software bzw. anderen Dingen.
Öffentlich nennen oder eine Textdatei mit genauer Versionsangabe hinterlegen sind ja unterschiedliche Dinge.
Aber hast recht, bin erst grob 2-3 Wochen "tätig" hab vorher aber auch erst ein knappes halbes Jahr gesurft. Muss mich erst einarbeiten wie das alles so geht