Seite 1 von 1

Gsite Crawler?

Verfasst: 16.10.2007, 00:22
von Seokratie
Huhu!
Ich fang gerade erst mit dem Crawlen an. Ist der Gsite Crawler dafür in Ordnung? Der rattert grad vor sich hin mit 16000 Einträgen... nein, kein Linkkatalog ^^. Damit kann ich doch den doppelten Content rauswerfen ohne eine So-und-So Umleitung zu machen, oder? :D
Zumindest kratzt sich Google daran nicht mehr, hab ich Recht?

:idea: ?

Ich sollte mich Depronoobis nennen...
:D

Verfasst:
von

Verfasst: 16.10.2007, 00:32
von Seokratie
Lustig, jetzt ist er schon bei 36000... :crazyeyes: Meeehr, ich will meeehr!
P.S: Ein anderer Crawler hat heute 7 erstellt.

Verfasst: 16.10.2007, 08:17
von catcat
Hehe. :D

Lass mich raten: Du hast ne php-Site und er crawlt Dir alle Kombinationen durch.
(Bewertungen, Suche, Reviews,...)

Du kannst dem gSite-Tool schon von vorneherein sagen, welche Parameter er einfach weglassen soll. Z.B. keine URL erfassen, die sowas enthalten: "&sitesearch=". Musst einfach gucken, was sinnvoll ist und was nicht und dann ausschliessen vom crawling.

Verfasst:
von

Verfasst: 16.10.2007, 08:24
von Gretus
Hallo,

Du kannst ja bestimmte Dateien usw. für das Crawlen ausschließen. Bein mir klappt GSite Crawler immer recht gut...

Grüße

Gretus

Verfasst: 16.10.2007, 09:36
von Seokratie
Also meine bisherige Sitemaps besteht aus statischen Seiten und dann einer /forum/ Seite.
Crawl der alte Google dann keine Unterseiten des Forums? :idea:

Re: Gsite Crawler?

Verfasst: 16.10.2007, 22:16
von MikeK
Deprofundis hat geschrieben:Damit kann ich doch den doppelten Content rauswerfen ohne eine So-und-So Umleitung zu machen, oder? :D
Zumindest kratzt sich Google daran nicht mehr, hab ich Recht?
Wie willst Du mit dem GSite Crawler DC rauswerfen? Eigentlich alles was der findet, kann auch Google finden. Was Du machen kannst, ist vor der Erzeugung der Sitemap - Datei die nicht gewünschte URLs zu entfernen (oder direkt das Crawlen zu unterbinden - wie schon geschrieben).

Diese Sitemap ist eine Hilfe, die Google verwenden !kann! um vielleicht Seiten zu finden, die sie sonst nicht indizieren würden. ABER: Wenn Google beim Crawlen DC entdeckt, gehen Sie nicht hin und sagen: "Ach, der liebe Webmaster hat die URL in der Sitemap gar nicht mit angegeben. Dann ignorieren wir die mal ..." Aussperren kannst Du mit der robots.txt !

Ein CMS was DC erzeugt, kannst Du nicht mit einer Sitemap retten!

Ciao,
Mike