Seite 1 von 1

Robots.txt

Verfasst: 08.10.2007, 11:09
von QuanChi
Wahh ich hasse Google :)

Google schafft es immer wieder genau das aufzunehmen was er nicht soll.
Ich habe mit meinem php-Board SEO-Url mod installiert und im Grunde lass ich Google auch nur so verfahren das er bloß nicht diesen scheiß aufnehmen soll aber natürlich genau das macht Google d.h.:

https://www.spiele-umsonst.de/viewtopic,p,272.html nimmt er auf

https://www.spiele-umsonst.de/berlin-co ... -t269.html das soll er aber

ich weiß nicht wie google das schafft wobei ich eigentlich dachte das 99,9% meines Boards nur das unterstützen anders auf viewtopic zu kommen.

Hier mal die Robots.txt

https://www.spiele-umsonst.de/robots.txt

What to do :) ?

Verfasst:
von

Verfasst: 08.10.2007, 11:28
von planta
sind ja auch beide symbolische uris vorhanden und mit Links, die der spider so verfolgt.
Ich würde der Variante die er nicht verfolgen soll einen 404er oder 301er mitgeben.

Aber neuerdings schickt der Spider auch bei mir Formulare ab und bläht mit den Suchergebnissen die Seitenanzahl auf.

:roll:


planta
die Welt braucht mehr Grün

Verfasst: 08.10.2007, 15:57
von w3news
Und wenn Du die Änderung erst kürzlich vorgenommen hast, dann kann das ein wenig dauern. Ein 301er sollte helfen...

Verfasst:
von

Verfasst: 08.10.2007, 16:47
von boodi.de
Ich habe das selbe Problem das Google Seiten aufnimmt, die es eigentlich nicht aufnehmen soll.

Kann ich eigentlich Google auch sagen das Seiten mit einem bestimmten Parameter in der URL nicht mit aufgenommen werden soll?

z.B. wunschzettel.html&meta=3
nachricht.html&meta=3

Es sollen also alle URL's/HTML-Seiten die den Parameter meta=3 enthalten NICHT mit aufgenommen werden .

Danke für die Hilfe im voraus :P

Verfasst: 10.10.2007, 23:12
von QuanChi
Ich habe google jetzt auch noch eine Sitemap.xml gespendet die nur die richtigen Links anzeigt und alle 24std per cronjob aktualisiert werden... wenn jetzt langsam nichts vernüftiges im index auftaucht verklag ich die :D

Verfasst: 11.10.2007, 08:43
von Reddog
du musst den googlebot direkt ansprechen!

User-agent: Googlebot
Dissallow....

Verfasst: 11.10.2007, 14:51
von luzie
Ich habe google jetzt auch noch eine Sitemap.xml gespendet
ja, da freut er sich :-) (aber was damit machen tut er nicht :lol: )

Verfasst: 11.10.2007, 15:05
von NetLook
boodi.de hat geschrieben:Ich habe das selbe Problem das Google Seiten aufnimmt, die es eigentlich nicht aufnehmen soll.

Kann ich eigentlich Google auch sagen das Seiten mit einem bestimmten Parameter in der URL nicht mit aufgenommen werden soll?

z.B. wunschzettel.html&meta=3
nachricht.html&meta=3

Es sollen also alle URL's/HTML-Seiten die den Parameter meta=3 enthalten NICHT mit aufgenommen werden .

Danke für die Hilfe im voraus :P
Versuchs mit Disallow: *meta=3*

Aber ob das funktioniert, keine garantie?!

Verfasst: 11.10.2007, 15:36
von boodi.de
QuanChi hat geschrieben:Ich habe google jetzt auch noch eine Sitemap.xml gespendet die nur die richtigen Links anzeigt und alle 24std per cronjob aktualisiert werden... wenn jetzt langsam nichts vernüftiges im index auftaucht verklag ich die :D
@ QuanChi: Welches Tool benutzt du dazu? Würde mich mal interessieren ;)...

Verfasst: 11.10.2007, 16:38
von pr_sniper
@QuanChi: schreibe einfach eine vernüftige robots.txt:

User-agent: *
Disallow: /v

und alles, was mit "/v" beginnt, wird nicht mehr indiziert bzw. demnächst entfernt. Fertig.

Verfasst: 12.10.2007, 00:07
von MikeK
@QuanChi: In den Google Webmaster Tools findest Du ein robots.txt - Tool. Damit kannst Du prüfen, was Google bei einer bestimmten robots.txt und entprechenden URLs macht. Du siehst die robots.txt die Google von Dir hat, kannst diese editieren und dann URLs angeben und prüfen ob Google diese verwendet oder dann gesperrt sind.

Der Vorschlag von NetLook sollte funktionieren. Wobei Du den Stern am Ende nicht benötigst.

Ciao,
Mike

Verfasst: 12.10.2007, 19:13
von pr_sniper
@MikeK - auch für dich die Quelle: https://www.robotstxt.org/ .

Weshalb immer Vorschlag, sollte funktionieren usw.? - Informieren, aber an der richtigen Stelle, richtig erstellen, fertig.

Vor allem: niemand wird mehr verwirrt :lol:

Verfasst: 12.10.2007, 21:29
von MikeK
@pr_sniper:

Die Quelle ist schon bekannt, aber such mal das so etwas wie *s= ...

Dort findest Du:
Note also that regular expression are not supported in either the User-agent or Disallow lines. The '*' in the User-agent field is a special value meaning "any robot". Specifically, you cannot have lines like "Disallow: /tmp/*" or "Disallow: *.gif".
Ein

Code: Alles auswählen

Disallow: *s=
sollte also gar nicht funktionieren, oder?

Ich möchte URLs mit solchen Parametern aussperren:
... .php?pr=0&s=A&p=2

Lasse ich den * weg, sperrt Google sie nicht. Mit dem * werden sie gesperrt, entgegen den Richtlinien.

Daher: Mit den Google Webmastertools prüfen was Google alles so akzeptiert (sollte, könnte, müsste)! :wink:

Ciao,
Mike

Verfasst: 13.10.2007, 18:15
von QuanChi
Der Googlebot ist aber auch selten dämlich... er hat noch nicht mal meine Navigation vollständig verlinkt und erst 1 link zu einem freegame gefunden.. Also nee wer das programmiert hat...

Verfasst: 13.10.2007, 18:18
von QuanChi
boodi.de hat geschrieben:
QuanChi hat geschrieben:Ich habe google jetzt auch noch eine Sitemap.xml gespendet die nur die richtigen Links anzeigt und alle 24std per cronjob aktualisiert werden... wenn jetzt langsam nichts vernüftiges im index auftaucht verklag ich die :D
@ QuanChi: Welches Tool benutzt du dazu? Würde mich mal interessieren ;)...
Also ich habe für phpbbv2 ein code gefunden der eine sitemap erstellt.
Willst du den haben ? :D