Seite 1 von 3

Googlebot holt sich bei Crawl auch externe CSS-Dateien

Verfasst: 23.06.2006, 09:35
von phereia
Ich weiß nicht, inwieweit das schon länger der Fall oder allgemein bekannt ist, aber mir ist heute erstmals aufgefallen, daß der Googlebot auch externe CSS-Dateien beim Crawl herunterlädt:

Code: Alles auswählen

66.249.66.45 - - [23/Jun/2006:03:58:08 +0200] 
  "GET /contergan/print.css HTTP/1.1"
  200 653 www.k-faktor.com "-" 
  "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
  "-"

Das Verhalten konnte ich bei mehreren CSS-Dateien (unter anderem auch Druck-Stylesheets) beobachten. In allen Fällen liegt die CSS-Datei im gleichen Verzeichnis wie die zugehörige HTML-Datei. Der Zugriff auf die CSS-Dateien erfolgte nicht in Zusammenhang mit einem Zugriff auf die zugehörige HTML Datei. Die CSS-Dateien waren nicht per robots.txt vom Crawlen ausgeschlossen. Eine Verlinkung der CSS-Dateien von anderen Seiten kann ich ausschließen.
Es darf also spekuliert werden...

Verfasst:
von

Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Verfasst: 23.06.2006, 10:02
von Pretender
Vermuten tue ich das auch allerdings bin ich mir in Deinem Beispiel nicht sicher, da es sich scheinbar nicht um ein Googlebot IP "66.249.66.45" handelt.

Aber vieleicht kenne ich diese IP nur nicht.

Verfasst: 23.06.2006, 10:11
von oldInternetUser
Yep: Die letzten Tage fehlte das noch, soeben habe ich mir das Protokoll von heute gezogen - da wurden alle bei mir verwendeten CSS-Dateien geholt.

Und da diese bei mir am Beginn der Auflistung stehen, hätte ich das früher schon merken müssen - also dürfte es heute das erste Mal gewesen sein.

IP: 66.249.65.199 - gehört zu google (tracert).

Interessant ist, daß nur 7 Hops nötig sind, um auf die IP zu kommen - das ist eine sehr direkte Netzanbindung (Telekom-DSL).

Verfasst:
von

Verfasst: 23.06.2006, 10:14
von Pretender
Die Frage ist: was will Google damit?

Verfasst: 23.06.2006, 10:16
von unknownsoul
Vielleicht endlich mal die Seiten kicken, die weiße Schrift auf weißen Hintergrund haben. Da tümmeln sich genügend auf den ersten Plätzen.

Verfasst: 23.06.2006, 10:16
von twiggie
Die Frage ist: was will Google damit?
Na das ist doch nicht schwer, denk mal selber nach :)

Verfasst: 23.06.2006, 10:20
von oldInternetUser
Interessanter sind solche Dinge, wo Container durch eine externe Klassenanweisung mit -1000px nach oben ausgelagert worden sind. Oder wo in einer externen Datei per z-Index etwas verborgen wird.

Verfasst: 23.06.2006, 10:20
von Pretender
Naja, mir ist schon mehr oder weniger klar was Google damit will aber ich frage mich, ob ein Bot entscheiden kann ob es sich um ein Trick handelt um Text zu verstecken oder ob es einfach ein Style ist wie zum Bespiel: "overflow:auto;" oder irgendwelche "hidden gedöngse" die man duchaus auch als Styleelemet verwenden kann :D

Verfasst: 23.06.2006, 10:23
von unknownsoul
Am besten einfach nicht tricksen, wenn man langfristig Erfolg haben möchte. Schon alleine weil die Konkurrenz ständig aufpasst.

Verfasst: 23.06.2006, 10:23
von Pretender
Wenn man z.B. mit einem Maushover einen bestimmten Text anzeigen lassen möchte.... Das kann man als versteckten sehen, da es das auch ist aber man macht soetwas nicht immer :lol: um Text als Trick zu verstecken.


sozusagen

Verfasst: 23.06.2006, 10:28
von unknownsoul
Würde ich nicht meinen Pretender, denn den Text kann jeder User sehen, wenn er drüber fährt. Sowas macht oft auch Sinn. Vor allem bei Grafiken.

Aber es gibt auch sinnlose Texte fürs Keywordspamming die komisch zu lesen wären. Und die sind immer versteckt. :)

Verfasst: 23.06.2006, 10:35
von phereia
Pretender hat geschrieben:Naja, mir ist schon mehr oder weniger klar was Google damit will aber ich frage mich, ob ein Bot entscheiden kann ob es sich um ein Trick handelt um Text zu verstecken oder ob es einfach ein Style ist wie zum Bespiel: "overflow:auto;" oder irgendwelche "hidden gedöngse" die man duchaus auch als Styleelemet verwenden kann :D
Meiner Meinung nach kann der Bot das bisher nicht und wird es auf absehbare Zeit nicht können. Ich habe eine Testseite online, bei der in der HTML-Datei alle gängigen "schmutzigen" CSS Tricks angewendet werden um Text zu verstecken. Die Seite erfreut sich google-technisch bester Gesundheit.

Ich könnte mir allerdings vorstellen, daß Google versucht, CSS-Dateien einen empirisch ermittelten "Spam-Score" zuzuweisen, der dann möglicherweise als ein kleines Mosaiksteinchen neben ganz viel anderen in die Wertung einer Seite einfließt.
Dazu müßte man nur für eine genügend große Zahl von Seiten, die anhand der aktuell genutzten Bewertungskriterien (also ohne Berücksichtigung von CSS) als "gut" (non-Spam) und "schlecht" (Spam) klassifiziert sind, die zugehörigen CSS Dateien auf Gemeinsamkeiten bzw. Korrelationen prüfen und könnte, sofern es statistisch signifikante Häufungen einzelner CSS-Deklarationen zu "schlechten" Seiten gibt, diese Deklarationen mit einem "Malus" belegen. Übersteigt der Malus einen gewissen Grenzwert, ist die Wahrscheinlichkeit groß, daß es eine "schlechte" Seite ist. Das Risiko, "gute" Seiten aufgrund *einzelner* Deklarationen fälschlicherweise als "Spam" zu bewerten, ist bei einer solchen Vorgehensweise m.E. recht gering.

Aber das ist reine Kaffeesatzleserei und betrifft mich persönlich mit meinem privaten Projekt herzlich wenig...

Verfasst: 23.06.2006, 10:54
von oldInternetUser
Im Augenblick kann das noch gar keine Auswirkungen haben, da google jetzt erst mit dem Datensammeln anfängt. Das wird jetzt erst einmal einige Wochen oder Monate laufen, bis google bsp. einen Überblick darüber hat, wie oft externe CSS-Dateien geändert werden.

Erst mit den Daten von einigen Wochen können diese klassifiziert werden: 'Völlig unproblematisch' versus 'könnte problematisch sein' - dann werden die sich wahrscheinlich diverse der problematischen CSS per Hand ansehen und prüfen, ob Unterscheidungen möglich sind.

Sprich: Auswirkungen in 3 bis 6 Monaten.

Spannender finde ich daran, daß die anderen Suchmaschinen von so etwas noch sehr weit weg sein dürften - weder JS noch CSS. Das von mir genannte Beispiel in dem anderen Thread zeigt, daß MSN beim Erkennen von Linknetzwerken ebenfalls um Dimensionen hinter google zurück ist.

Verfasst: 23.06.2006, 11:03
von phereia
Interessant ist auch die Frage, ob der Googlebot einer Stylesheet "Kaskade" folgt, also CSS-Dateien aufruft, die selbst über eine andere CSS-Datei importiert bzw. eingebunden werden. Da läßt sich für den, der Zeit und ein schlechtes Gewissen ;-) hat einiges testen...

Verfasst: 23.06.2006, 11:12
von Fridaynite
Holt sich Google schon lang und suppt sie anschliessend wieder.
https://www.google.com/search?hl=en&lr= ... tnG=Search

Am Besten mit robots.txt aussperren, den Bot :)