Seite 1 von 1

nofollow für formular?

Verfasst: 29.05.2009, 01:18
von wehwehweh
wie kann man den bot das ausfüllen von formularen verbieten?
der pumpt mir immer mehr seiten in den index, obwohl ich die mit robots.txt ausgeschlossen habe.
noindex-metatag hab ich momentan nicht drin.
gibt es da sowas wie nofollow?
hat schon jemand nofollow im formular ausprobiert? funktioniert das?
ich möchte das der bot die datei gar nicht sieht.

Verfasst:
von

Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Verfasst: 29.05.2009, 07:31
von DbDdhkP07
Welcher Bot macht denn sowas?

Notfalls über .htaccess und Bot-Kennung einen 403 auslösen?

setenvif User-Agent ^lftp getout

<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=getout
</Limit>
Viel Spass

Verfasst: 29.05.2009, 07:41
von Fridaynite
DbDdhkP07 hat geschrieben:Welcher Bot macht denn sowas?

Der Googlebot macht sowas.
Am besten die Seite tatsächlich für den Bot in der htaccess sperren oder auf "post" umstellen. Du hast vermutlich "get" als Formularbefehl.

Verfasst:
von

Verfasst: 29.05.2009, 07:52
von DbDdhkP07
Sorry :)

Klar, aber ich bin davon ausgegangen das sich der GoogleBot an die robots.txt und noindex Anweisungen hält. Deswegen die Frage nach dem Bot, weil IMHO Google "sowas nicht macht" ;)

Wenn man das Form auf POST umstellt, aber darauf achten, das man im nachfolgenden Script auch nur die per Post übergebenen Variablen ausliest. Einige PHP Implementationen sind aus Faulheitsgründen wohl mit RegisterGlobals = on verbastelt und nehmen dann halt die GET Werte, wenn über POST nix kommt.

So, jetzt aber wieder an die Arbeit ;)

Verfasst: 29.05.2009, 10:24
von wehwehweh
ja der google bot macht sowas gerne.
stimmt ich habe momentan GET drin, das kann ich noch umstellen auf POST.
ansonsten ist mir jetzt eingefallen ich könnte ja auch die werte per link weitergeben und diesen mit nofollow versehen.

Verfasst: 29.05.2009, 10:40
von scysys
Eine einfache Captcha Abfrage würde dein Problem ebenfalls lösen.

Verfasst: 29.05.2009, 10:44
von wehwehweh
captcha wär in dem fall eine zumutung

Verfasst: 29.05.2009, 11:14
von mgutt
Was sendet Google denn dann? Oder ist das ein Formular mit vorgegeben Werten? Also jetzt keine Suche oder sowas.

Verfasst: 29.05.2009, 12:07
von Mork vom Ork
Fridaynite hat geschrieben:Der Googlebot macht sowas.
Am besten die Seite tatsächlich für den Bot in der htaccess sperren oder auf "post" umstellen. Du hast vermutlich "get" als Formularbefehl.
Wenn der Googlebot schon so grenzdebil ist, GET-Formulare auszufüllen, hindert ihn wenig daran, das auch mit POST-Formularen zu machen. Vielleicht momentan noch nicht, aber die Erweiterung ist eine Sache von einem Dutzend Programmzeilen.
Kurz: Auf die GET/POST-Geschichte würde ich mich nicht verlassen.
wehwehweh hat geschrieben:der pumpt mir immer mehr seiten in den index, obwohl ich die mit robots.txt ausgeschlossen habe.
Wenn du das Formular in der robots.txt gesperrt hast, wird es kaum der Googlebot sein, der den Unsinn veranstaltet. Die Ergebnisseiten könntest und solltest du davon abgesehen leicht aussperren, indem du sie mit einem <meta>-noindex (evt. zzgl. follow) bestückst - insofern sehe ich das Problem nicht so ganz.

Verfasst: 29.05.2009, 12:52
von wehwehweh
Was sendet Google denn dann? Oder ist das ein Formular mit vorgegeben Werten? Also jetzt keine Suche oder sowas.
ja ist ein formular mit vorgegebenen werten. hier werden alle mögliche kombination gesendet.
Wenn du das Formular in der robots.txt gesperrt hast, wird es kaum der Googlebot sein, der den Unsinn veranstaltet. Die Ergebnisseiten könntest und solltest du davon abgesehen leicht aussperren, indem du sie mit einem <meta>-noindex (evt. zzgl. follow) bestückst - insofern sehe ich das Problem nicht so ganz.
nicht das formular ist mit robots.txt gesperrt sondern die ergebnisseiten.

klar das mit dem index könnte ich mit meta-noindex verhindern.

allerdings wollte ich gar nicht, dass der bot überhaupt soweit kommt.
aber vielleicht ist es eh gar kein problem. ich habe das vielleicht auch schlecht geschildert. die ergebnisseiten sind ohne snippet und ohne title im index, nur als dateinamen mit den angehängten werten.

was mich erstaunt hat, weil das bis jetzt nur mit links passiert ist.

bei einen anderen projekt seh ich das ja auch immer, dass google versucht auf die ergebnisseiten zuzugreifen, die seiten sind aber nie im index gelandet. der unterschied ist nur, dass diese ergebnisseiten zusätzlich ein noindex metatag haben.
aber eigentlich dürfte der bot das ja gar nicht sehen wenn er durch die robots.txt ausgeschlossen ist. das ist das komische.
wenn ich jetzt denke dass der bot die seiten nicht in den index nimmt, muss ich annehmen dass er entweder die meta anweisung kennt (und auch den content) oder dass das andere projekt ausnahme ist.
deshalb wollte ich auf nummer sicher gehen und das vorher unterbinden.

oder ich bin total paranoid und google kennt die seiten eh nicht und sie werden bald wieder aus dem index verschwinden.

Verfasst: 29.05.2009, 16:17
von Mork vom Ork
wehwehweh hat geschrieben:die ergebnisseiten sind ohne snippet und ohne title im index, nur als dateinamen mit den angehängten werten.
[&#8230;]
wenn ich jetzt denke dass der bot die seiten nicht in den index nimmt, muss ich annehmen dass er entweder die meta-anweisung kennt (und auch den content) oder dass das andere projekt ausnahme ist.
Soweit ich das bislang immer mitbekommen habe, kann die Version &#8222;URL ohne alles&#8220; im Index landen, wenn die URL zwar per robots.txt gesperrt, aber auf einer anderen, indizierten Seite vermerkt wurde - was bei dir ja letztlich durch das Formular der Fall ist. <meta>-noindex verhindert hingegen auch das Speichern der URL an sich.

Dies könnte der Grund dafür sein, dass von dir (mit robotst.txt) lauter nackte URLs im Index stehen, vom Anderen (mit <meta>-noindex) aber überhaupt nichts.
Alternativ kann es natürlich auch sein, dass des Anderen Formular von Google noch nicht unsittlich befummelt wurde.
ist ein formular mit vorgegebenen werten.
Vielleicht hindert ein (per CSS verstecktes) <input>-text-Feld die Googlesche Neugierde? (Bei <input>-hidden hast du wieder einen vorgegebenen Wert, kommt also nicht in Frage, es muss schon CSS sein.)

Verfasst: 30.05.2009, 01:12
von nerd
Mork vom Ork hat geschrieben: Wenn der Googlebot schon so grenzdebil ist, GET-Formulare auszufüllen, hindert ihn wenig daran, das auch mit POST-Formularen zu machen. Vielleicht momentan noch nicht, aber die Erweiterung ist eine Sache von einem Dutzend Programmzeilen.
google benutzt die GET-forms, um zu sehen was es noch auf der seite zu sehen gibt, da z.b. viele seiten eine interne suchfunktion haben und die datenmenge manchmal so gross ist das man sie nicht sinnvoll verlinken kann ohne den user dabei ueber mehr als 3 seiten klicken zu lassen. dabei werden imho woerter probiert, die haeufig auf der seite vorkommen. der google bot benutzt keine formulare die POST verwenden.

Verfasst: 30.05.2009, 09:50
von Mork vom Ork
nerd hat geschrieben:
Mork vom Ork hat geschrieben: Wenn der Googlebot schon so grenzdebil ist, GET-Formulare auszufüllen, hindert ihn wenig daran, das auch mit POST-Formularen zu machen.
google benutzt die GET-forms, [&#8230;] da z.b. viele seiten eine interne suchfunktion haben [&#8230;] dabei werden imho woerter probiert, die haeufig auf der seite vorkommen. der google bot benutzt keine formulare die POST verwenden.
Wenn sich die GETerei erstmal als nützlich für Google erwiesen hat, kommt die POSTerei garantiert auch - früher oder später.