Seite 1 von 1

Googlebot ruft Seiten mit seltsamem Parameter auf

Verfasst: 03.11.2009, 11:54
von netzfreak
Hallo zusammen,

seit kurzer Zeit stelle ich auf einer Website ein seltsames Phänomen
fest. Googlebot ruft bei mir diverse Seiten nicht mehr einfach nur
z.B. mit "GET /unterverzeichnis/datei.htm" auf, sondern fügt oftmals
noch einen Zusatz an.

Das sieht dann z.B. wie folgt aus:
"GET /unterverzeichnis/datei.htm?keepThis=true&TB_iframe=
true&height=768&width=1024"

Diese Anfrage wird dann mit Code 304 beantwortet.

Was hat es mit dieser komischen "keepthis..."-Anfrage auf sich?
Ich verwende selbst nirgends iFrames oder dergleichen.

Betroffen sind insbesondere Unterseiten, die meines Wissens gar nicht
von anderen Websites direkt verlinkt sind - demnach kann es wohl
auch nicht an fehlerhaft gesetzten Links liegen?

Grüße,
Netzfreak

Verfasst:
von

Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Re: Googlebot ruft Seiten mit seltsamem Parameter auf

Verfasst: 03.11.2009, 12:17
von Mork vom Ork
netzfreak hat geschrieben:"GET /unterverzeichnis/datei.htm?keepThis=true&TB_iframe=
true&height=768&width=1024"
[…]
Was hat es mit dieser komischen "keepthis..."-Anfrage auf sich?
Das sind URLs, die auf Seiten zusammen mit Thickbox eingesetzt werden. Thickbox ist ein Skript, mit dem sich weitere Inhalte in eine Seite einbinden lassen, von einzelnen Bildern über Gallerien bis hin zu kompletten Webseiten.
Thickbox lässt sich unter anderem aktivieren, indem ein Element à la <a class="thickbox" href="blafasel.html?thickbox-parameter">Blafasel-Seite</a> in den Code gesetzt wird; das Thickbox-Skript sucht alle Elemente der Klasse thickbox und bettet stattdessen den Inhalt der gegebenen href-URL ein.

Willst du die URLs loswerden, wirst wohl oder übel mod_rewrite einsetzen müssen.

Das komische keepthis ist schlichtweg ein Bedienungsfehler, da hat jemand die Anleitung nicht ordentlich gelesen (die allerdings auch etwas missverständlich geschrieben ist). Da heißt es nämlich bezüglich der Parameter:

In the href attribute, after the URL, add the following query on to the end of the URL & any parameters you might add: ?KeepThis=true&TB_iframe=true&height=400&width=600

Etwas weiter unten, getrennt davon, steht dann noch folgender Hinweis:

Add all other query parameters before the TB_iframe parameters. Everything after the "TB" is removed from the URL.

Soll bedeuten: Man kann als Ziel natürlich auch eine URL mit Parametern angeben, zB eine Google-Suche: /search?q=thickbox. Die Thickbox-Parameter müssen dann ans Ende der URL, hinter die eigentlichen URL-Parameter. Thickbox entfernt beim Einbetten des Ziels alles hinter dem &TB_ und das &#8222;KeepThis=true&#8220; in dem Beispiel soll ein Platzhalter sein für die Parameter, die beibehalten werden (hier: q=thickbox). Und das haben eine ganze Menge Leute offenbar nicht mitbekommen :)

Re: Googlebot ruft Seiten mit seltsamem Parameter auf

Verfasst: 04.11.2009, 15:50
von netzfreak
Hallo,
Mork vom Ork hat geschrieben: Das sind URLs, die auf Seiten zusammen mit Thickbox eingesetzt werden.


Danke für Deine Erläuterungen! :D

Aber was bedeutet das denn nun konkret? Offenbar baut also jemand
Inhalte/Unterseiten von mir mit einem solchen Skript in ein anderes
Angebot ein?

Kann das durch Social-Bookmark-Dienste kommen (die haben ja
manchmal so eine Seitenvorschaufunktion)?

Oder klaut da jemand Inhalte von mir? Könnte das Probleme mit
DC geben?

Wieso verfolgt Google überhaupt solche fehlerhaften Links?

cu talk

Verfasst:
von

Verfasst: 05.11.2009, 11:14
von jr-s
Hallo netzfreak!

Hier kann man mehr darüber lesen, auch gibt es gleich eine SEO-Lösung dafür.

Mich wundert es auch, dass - in der letzten Zeit - der DC-Problematik kaum noch Beachtung geschenkt wird...

Re: Googlebot ruft Seiten mit seltsamem Parameter auf

Verfasst: 05.11.2009, 16:14
von Mork vom Ork
netzfreak hat geschrieben:Offenbar baut also jemand Inhalte/Unterseiten von mir mit einem solchen Skript in ein anderes Angebot ein?
Richtig.
Kann das durch Social-Bookmark-Dienste kommen (die haben ja
manchmal so eine Seitenvorschaufunktion)?
Will ich nicht ausschließen, aber unter Seitenvorschau verstehe ich eher diese kleinen Vorschaubildchen, und dabei handelt es sich dann, wie der Name halt schon sagt, um ein Bild, in welchem die Zielseite verkleinert dargestellt wird, nicht um einen IFrame, der die Zielseite in Originalgröße anzeigt.

Nichtsdestotrotz kann's natürlich sein, dass jemand das per Thickbox löst. Statt Bookmarkdiensten fallen mir da in erster Linie Kataloge und Verzeichnisse ein (sowie ähnliche Bereich innerhalb andersthematischer Angebote), denn dort würde ich durchaus auch einen Nutzen der Vorschau sehen.

Kann aber auch irgendwas ganz anderes sein, das Web ist groß und weit.
Oder klaut da jemand Inhalte von mir?
Möglich, wobei deine Seiten ja wohlgemerkt weiterhin von deinem Server abgerufen werden, sie werden lediglich per IFrame in die andere Seite eingebunden - und dies im Falle der Thickbox üblicherweise recht offensichtlich. So ganz mag ich deshalb von Klauen nicht reden, höchst unfein ist es natürlich trotzdem.
Könnte das Probleme mit DC geben?
Nein, wie eben schon erläutert, es wird ja nichts von deinem auf einen anderen Server kopiert und selbst das Einbinden geschieht nur per Javascript, also unsichtbar für Suchmaschinen.
Wieso verfolgt Google überhaupt solche fehlerhaften Links?
Wie ich schon schrieb:

Thickbox lässt sich unter anderem aktivieren, indem ein Element à la <a class="thickbox" href="blafasel.html?thickbox-parameter">Blafasel-Seite</a> in den Code gesetzt wird. Das ist ein ganz normaler Verweis, der von Google ganz normal verfolgt wird.

Das tatsächliche Einbinden (lies: Anzeigen) deiner Inhalte geschieht dann durch das Thickbox-Skript, das sich alle Elemente der Klasse thickbox sucht und durch ein entsprechendes <iframe>-Element ersetzt. Sprich: Sobald die fremde Seite im Browser geladen ist, fliegt der <a>-Verweis per Javascript raus und deine Seite kommt per <iframe> rein.

Da es sich aus Sicht Googles um einen normalen Verweis handelt, müsste der pöse Pube mit einer Backlinkprüfung aufzuspüren sein. Findet sich damit nichts, beobachte das Zugriffsprotokoll deines Servers, dort sollte die betreffende fremde Seite als verweisende URL (&#8222;Referer&#8220;) auftauchen, sobald sie von einem Besucher aufgerufen wird - kann natürlich dauern &#8230;

Last but not least und sicherlich am einfachsten: Du kannst auch bei dir Anfragen mit den Thickbox-Parametern per mod_rewrite auf die jeweilige URL ohne Parameter umleiten. Dann bist du die Plage quasi sofort los und behältst den Backlink.

Der Thickbox-Betrieb müsste sich davon abgesehen durch das altbewährte Hausmittel Frame-Knacker empfindlich stören lassen.

Verfasst: 05.11.2009, 18:35
von jr-s
Hier geht's aber eher um DC im Google-Index ... und dies tut weh!

... leider sind die Einträge für "einige" Suchmaschinen doch sichtbar: siehe den Link "eine ganze Menge Leute offenbar nicht mitbekommen" in dem Posting vom: 03.11.2009, 12:17 Uhr.

Jemand wiederspricht sich hier offensichtlich.

Verfasst: 05.11.2009, 21:41
von GreenHorn
@Mork vom Ork
Danke für die kompetente Aufklärung. Die Google Bot hits waren mir auch ein Rätzel... :oops:

PS: Cooler Anti Katzen Avatar!

Verfasst: 05.11.2009, 21:50
von Mork vom Ork
jr-s hat geschrieben:Hier geht's aber eher um DC im Google-Index
Richtig, die eigene Seite ist natürlich doppelt vorhanden, das habe ich übersehen, weil ich noch den Seitenklau im Kopf hatte. Darüber, dass Google sowas in diesem Ausmaße (eine einzelne Kopie) auf derselben Domain restlos schnurz ist, mögen sich andere auslassen.
lsiehe den Link "eine ganze Menge Leute offenbar nicht mitbekommen" in dem Posting vom: 03.11.2009, 12:17 Uhr.

Jemand wiederspricht sich hier offensichtlich.
Bevor du hier so leicht hinterfotzig in den Raum wirfst, es würde sich &#8222;jemand&#8220; widersprechen (du darfst mich auch gerne direkt ansprechen anstatt so zu tun, als wäre ich nicht hier), lerne erstmal, widersprechen richtig zu buchstabieren :>

Verfasst: 06.11.2009, 10:45
von netzfreak
Hallo zusammen,

ich habe jetzt mal versucht, noch ein paar weitere Informationen
zusammenzutragen:

1.) Backlinks mit dem Parameter kann ich keine finden - weder
mit dem link:-Befehl in der Google-Suche, noch in den Google-WMT.

2.) "Normale Besucher" und andere Suchmaschinen rufen die Seiten
*nie* mit diesem Zusatzparameter auf. Nur Google ruft die Seiten mit
diesem "?keepthis=..."-Zusatz auf!

3.) Mod_rewrite habe ich bei meinem Webspace leider nicht
zur Verfügung, im Error-Log kommt da nur "RewriteEngine not
allowed here".

4.) Ich weiß nicht, ob ein Frameknacker hilft. Ich vermute, daß Google
die Seite mit dem Zusatz einfach als eigenständige (Unter-)Seite ansieht
und demnach eigenständig aufruft. Ich habe jetzt mal ein Javascript
eingebaut, das die location.href abfrägt und wenn hier der keepthis-
Parameter drinsteckt dann eine Weiterleitung auf die "normale"
Variante ausführt.

Mit einem normalen Browser funktioniert diese "Weiterleitung"
einwandfrei. Ob Google das auch kapiert, bin ich mir nicht sicher.

5.) Das keepthis-Phänomen begann (wie ich nun festgestellt habe) schon
vor ein paar Monaten. Zunächst aber nur mit zwei eher unwichtigen,
alten Unterseiten. In der letzten Zeit sind immer mehr Seiten
dazugekommen, darunter auch die Startseite der Domain.

Gerade wegen der Startseite mache ich mir nun sorgen. Denn diese
wird jetzt auf vier Varianten aufgerufen, nämlich als:

www.domainname.xy/index.htm
www.domainname.xy
www.domainname.xy/index.htm?keepthis=true&TB_iframe=...
www.domainname.xy/?keepthis=true&TB_iframe=...

Schon seit langem wurden die ersten beiden Varianten aufgerufen,
vor einigen Wochen kam die dritte dazu, vor wenigen Tagen die
vierte.

Kurz nach dem ersten Google-Aufruf der vierten Variante habe
ich dann auch das Phänomen festgestellt, das ich im Parallelthread
"Reihenfolge von Suchbegriffen relevant?" beschrieben
habe. Ob da vielleicht ein Zusammenhang besteht?

Möglicherweise wurde die Startseite nun irgendwie abgewertet, sodaß
sie die Unterseiten mit weniger "Linkpower" unterstützen kann?

Grüße,
Netzfreak

Verfasst: 06.11.2009, 12:11
von Mork vom Ork
netzfreak hat geschrieben:2.) "Normale Besucher" und andere Suchmaschinen rufen die Seiten *nie* mit diesem Zusatzparameter auf. Nur Google ruft die Seiten mit diesem "?keepthis=..."-Zusatz auf!
Das ist natürlich merkwürdig, aber der Zusammenhang der Parameter mit Thickbox ist IMHO schon sehr eindeutig.
4.) Ich weiß nicht, ob ein Frameknacker hilft.
Er hilft zweifelsohne nicht bei Google selbst, aber da der Frameknacker die Thickbox auseinandernimmt, würde deine Seite eventuell gar nicht erst in Thickbox-Krams eingebaut werden - denn wer verwendet schon eine Thickbox, die nicht funktioniert? (Ok, Kataloge, die sich nicht um einzelne Seiten kümmern.)
Ich vermute, daß Google die Seite mit dem Zusatz einfach als eigenständige (Unter-)Seite ansieht
Ja, das ist richtig. Google hat vor Jahren mit dem Unsinn angefangen, Parameter-URLs als eigenständige Seiten zu indizieren, weil alle Welt meinte, Profi-URLs müssten aussehen wie index.php?page=120047890&id=232390. Und das hast du nun davon ;)
Ich habe jetzt mal ein Javascript eingebaut, das die location.href abfrägt und wenn hier der keepthis-Parameter drinsteckt dann eine Weiterleitung auf die "normale" Variante ausführt. [&#8230;] Ob Google das auch kapiert
Nein, Google hat mit Javascript quasi nichts am Hut. Da wird ein bißchen nach vollständigen URLs rumgesucht, aber Ausführen kann Google den Code nicht.
In der letzten Zeit sind immer mehr Seiten
dazugekommen, darunter auch die Startseite der Domain.
Ist natürlich alles sehr unschön. Da kann man nun viel dran rumbasteln, aber die sicherste und einfachste Methode bleibt, mod_rewrite einzusetzen. Ich rate dir, in ein entsprechendes Hosting-Paket zu wechseln, bei den meisten Hostern geht so ein Wechsel in ein höherwertiges Paket ja auch während der Vertragslaufzeit.

In deine oberste .htaccess schreibst du folgende Zeilen:

RewriteEngine on
RewriteCond %{HTTP_HOST} !=www.example.com
RewriteRule (.*) http://www.example.com/$1 [R=301,L]
RewriteCond %{QUERY_STRING} !^$
RewriteRule (.*) http://www.example.com/? [R=301,L]
RewriteCond %{THE_REQUEST} ^(?:GET|HEAD)\s+(.*/)index\.[.a-z]+\s
RewriteRule . http://www.example.com%1 [R=301,L]

Damit leitest du a) alles auf die www-Domain um (entsprechend ändern, falls du kein www haben willst), löschst b) sämtliche URL-Parameter und änderst c) Anfragen an /index.xy in die jeweilige Verzeichnis-URL. Kurz und schmerzlos.
Falls du irgendwann mal URL-Parameter einsetzt, müsstest du das %{QUERY_STRING}-Muster entsprechend anpassen.

Verfasst: 20.11.2009, 17:34
von netzfreak
Hallo,

@Mork vom Ork:
Danke für die Anleitung zur .htaccess - werde mal darüber
nachdenken, inwiefern ich mein Webspace-Paket in Zukunft
sinnvoll ändern kann.

In den letzten Tagen habe ich jetzt erstmal auf folgende Mittel
zurückgegriffen:

1.) Canonical-Tag

Bei einigen Seiten, die mit und ohne "?keepthis"-Anhang
aufgerufen wurden, habe ich jetzt mal ein Canonical-Tag
mit der Adresse ohne Parameter als Angabe in den Header
geschrieben.

2.) WMT: Parameter ignorieren

In den Google-WMT gibt es ja eine Option, bei der man Parameter
eingeben kann, die beim Crawlen ignoriert werden sollen.
Dort habe ich die vier Parameter dieses Zusatzes angegeben.

Resultat der beiden Maßnahmen:

Bislang habe ich noch keine Besserung erkennen können.

Meine Seite ist weiterhin bei vielen Keywords schlechter
platziert, als noch Ende Oktober (ob da ein Zusammenhang
mit dieser Parameter-Geschichte besteht, bin ich mir auch
weiterhin nicht ganz sicher).

Der Googlebot ruft auch weiterhin die betroffenen Seiten sowohl
mit, als auch ohne "?keepthis..."-Zusatz auf. Die oben genannten
Maßnahmen habe ich etwa seit einer Woche umgesetzt. Ist das
vielleicht noch zu wenig Zeit für den Googlebot gewesen?

Ich habe sogar den Eindruck, daß diese Seiten nun vom Googlebot
häufiger abgerufen werden, als vorher. Ich vermute auch,
daß diese Seiten teilweise in der Suche noch weiter abgefallen sind
(letzte Ergebnisseite) bzw. ganz aus den Ergebnissen gefallen sind.

Gutes Zeichen, weil jetzt wieder eine Neuberechnung läuft,
die meine Eingaben (Canonical-Tag und Parameter-Einstellung in
den WMTs) berücksichtigt?

Oder schlechtes Zeichen, weil ich die Seiten jetzt komplett
"abgeschossen" habe?

Grüße,
Netzfreak

Verfasst: 20.11.2009, 21:21
von w3news
Ich denke mal du solltest ein wenig abwarten, denn eine Woche ist meiner Meinung nach für Google zu wenig, bei diesem Thema...