Googlebot holt sich bei Crawl auch externe CSS-Dateien

Beitrag von **phereia** » 23.06.2006, 11:19

Fridaynite hat geschrieben:Holt sich Google schon lang und suppt sie anschliessend wieder.

Nein. Das sind - zumindest soweit mir bekannt - CSS-Dateien, die "normal" verlinkt sind, etwa als Demo etc.

Edit: Interessant, daß offensichtlich viele (alle?) der betreffenden CSS-Dateien das gleiche Cache-Datum aufweisen.

von **Anzeige von ABAKUS** »

Hochwertiger Linkaufbau bei ABAKUS:

Google-konformer Linkaufbau
nachhaltiges Ranking
Linkbuilding Angebote zu fairen Preisen
internationale Backlinks

Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Beitrag von **oldInternetUser** » 23.06.2006, 14:31

Die interessante Frage ist, ob diese neu gespiderten CSS-Dateien irgendwann mal in der regulären Suche auftauchen.

Immerhin gab es schon Anfragen in Foren (und wohl auch an google), wie man nach CSS- oder JavaScript - Code suchen könne.

Beitrag von **Andy.C** » 23.06.2006, 17:42

es währe Technisch möglich dass Google Texte mit der Farbe des Hintergrundes erkennt. color:#FFFFFF; und background-color:#FFFFFF; wobei es eine unzahl an Spammethoden gibt die ich nicht nennen möchte.

Allein der Robot wird Spam nicht ohne weiteres erkennen können. Menschliche Helfer werden dennoch benötigt, um zu bewerten ob es gezielt Spam oder ein Mitbringsel einer Javascript-Funktion o.ä. ist.

Grüße

von **Anzeige von ABAKUS** »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:

einzigartige Texte
suchmaschinenoptimierte Inhalte
eine sinnvolle Content-Strategie
Beratung und Umsetzung

Jetzt anfragen: 0511 / 300325-0

Beitrag von **thetrasher** » 23.06.2006, 18:48

phereia hat geschrieben:Interessant ist auch die Frage, ob der Googlebot einer Stylesheet "Kaskade" folgt, also CSS-Dateien aufruft, die selbst über eine andere CSS-Datei importiert bzw. eingebunden werden.

Nein, Googlebot nimmt nur die aus der HTML-Seite verlinkte CSS-Datei. Vorerst

66.249.72.171 - - [23/Jun/2006:04:40:49 +0200] "GET /style.css HTTP/1.1" 200 121 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"

Beitrag von **phereia** » 24.06.2006, 08:49

thetrasher hat geschrieben:Nein, Googlebot nimmt nur die aus der HTML-Seite verlinkte CSS-Datei. Vorerst

Ist das getestet bzw. belegt? Dann kann ich mir nämlich einen eigenen Versuch sparen.

Im übrigen halte ich es für einen interessanten und richtigen Ansatz, daß Google jetzt möglicherweise versuchen möchte, sich auch um CSS-Spam-Tricks zu kümmern. Allerdings glaube ich, daß die technische Herausforderung, so etwas mit akzeptablem Rechenaufwand zu lösen, nicht gerade klein ist. Im Grunde kommt aus meiner Sicht dafür - wie weiter oben geschrieben - nur ein Scoring-System in Frage. Damit hätte man dann sogar eine Lösung für diejenigen, die ihre CSS-Dateien vom Spidern ausschließen. Stellt der Robot das fest, gilt das per se erst einmal als verdächtig und wird mit einem Malus belegt.

Beitrag von **twitch** » 24.06.2006, 09:16

wie üwrde denn ein Eintrag in der robots.txt aussehen um css-Dateien auszuschließen?

Beitrag von **kill_bill** » 24.06.2006, 09:28

twitch hat geschrieben:wie üwrde denn ein Eintrag in der robots.txt aussehen um css-Dateien auszuschließen?

Vielleicht würde Google dann hingehen und Seiten, deren Bestandteile nicht komplett gelesen werden können, abwerten - wäre nur logisch.
Btw impliziert das absichtliche Sperren der css-Dateien die Vermutung, dass mit unehrenhaften Mitteln gearbeitet werden könnte. Und auf solche Seiten können wir imho auch gerne verzichten.

Beitrag von **thetrasher** » 24.06.2006, 09:53

phereia hat geschrieben:Ist das getestet bzw. belegt? Dann kann ich mir nämlich einen eigenen Versuch sparen.

Die Datei style.css enthält zu Anfang die Anweisung

Code: Alles auswählen

@import url&#40;"style2.css"&#41;;

style2.css wurde nicht gespidert. Noch nicht.

Conditional comments verfolgt Googlebot ebenfalls (noch) nicht.

Code: Alles auswählen

<!--&#91;if IE&#93;><link rel="stylesheet" type="text/css" href="msie.css" /><!&#91;endif&#93;-->

msie.css wurde nicht gespidert.

Kann mir gut vorstellen, dass es Google nicht nur um die Jagd nach CSS-Cloakern geht, sondern dass Vorschaubilder angezeigt werden sollen.

Beitrag von **phereia** » 24.06.2006, 10:29

kill_bill hat geschrieben:Btw impliziert das absichtliche Sperren der css-Dateien die Vermutung, dass mit unehrenhaften Mitteln gearbeitet werden könnte. Und auf solche Seiten können wir imho auch gerne verzichten.

Das greift von der Argumentation zu kurz. Es gibt genügend Projekte, in denen sich alle nicht-HTML Resourcen beipsielsweise in einem Verzeichnis namens "files" befinden. Und ein solches Verzeichnis vom Spidern auszuschließen dürfte eher die Regel sein.

Und um in der Argumentation noch einen Schritt weiterzugehen: es steht - meines Wissens - noch immer der Nachweis aus, daß Google Cloaking von HTML-Seiten ohne humanoide Mithilfe selbständig über "undercover" Bots erkennt. Um wieviel schwieriger dürfte es noch werden, CSS-Cloaking automatisiert zu erkennen.

thetrasher hat geschrieben:Kann mir gut vorstellen, dass es Google nicht nur um die Jagd nach CSS-Cloakern geht, sondern dass Vorschaubilder angezeigt werden sollen.

Dann bin ich gespannt, wann es die ersten CSS-"Hacks" für die Google Darstellung gibt.

Beitrag von **kill_bill** » 24.06.2006, 10:48

Dein Argument zu meiner Aussage lasse ich gelten

Zu deinem weiteren Argument:
Wo liegt die Schwierigkeit für ein automatisiertes System, zu erkennen, dass Div-Container A mit der Regel left:-1000px ein Spam-Container ist?
Und um Cloaking zu erkennen brauchen die wirklich nur eine Kontrolldatei eines "undercover" Bots - und das auch nur stichprobenartig.

Beitrag von **phereia** » 24.06.2006, 11:28

kill_bill hat geschrieben:Wo liegt die Schwierigkeit für ein automatisiertes System, zu erkennen, dass Div-Container A mit der Regel left:-1000px ein Spam-Container ist?

Das dürfte ein Beispiel sein, welches in der Praxis nur von CSS-Laien so umgesetzt wird. Wer es darauf anlegt, hat mit CSS ein beinahe unerschöpfliches Reservoir an Möglichkeiten, Text zu "verstecken", welches durch einen "theoretischen Blick" auf das Stylesheet auch nicht ohne weiteres zu entdecken ist (wenn z.B. mit Kombinationen von Selektoren, IDs und ähnlichem gearbeitet wird).

Und um Cloaking zu erkennen brauchen die wirklich nur eine Kontrolldatei eines "undercover" Bots - und das auch nur stichprobenartig.

Ich bin nach wie vor der Meinung, daß ein solcher Ansatz nicht funktioniert. Im Grunde müßte dann nämlich ein Screenshot, den ein "undercover" Bot gemacht hat mit einem Screenshot der Seite, wie sie der "reguläre" Bot zu sehen bekommt, verglichen werden. Aber das reicht natürlich nicht, denn es gibt genügend Webautoren, die - aus welchen Gründen auch immer - sog. Browserweichen einsetzen und die Browser mit unterschiedlichen Versionen der Seite bedienen. Und in der Regel sind die dabei erzeugten unterschiedlichen Versionen rein optisch - entgegen der Intention - trotzdem nicht absolut deckungsgleich. Ergo müßten "regulärer" und "undercover" Bot mit identischer Browserkennung unterwegs sein.

Manchmal finde ich es richtig schade, daß ich a) einen seriösen und soliden Brotberuf habe und b) nicht programmieren kann, denn das Thema CSS und Suchmaschinen halte ich für absolut spannend.

Beitrag von **ArturO** » 24.06.2006, 13:41

Wenn Google die CSS dateien nicht cached, gibt es für blackhat seos immernoch die möglichkeit die css dateien zu cloaken. Einfach die .css dateien in php parsen lassen.
Die Html-Cache seiten werden schließlich mit dem original css verlinkt.
Der Googlebot bekommt eine reine CSS Datei zu sehen, verlinkt wird in der cache version der htmlseite jedoch die ungecloakte css datei. Da standartmäßig css dateien nicht im cache gezeigt werden, solange sie nicht aktiv verlinkt sind, kann man als 0815 user auch nicht sehen ob eine css datei gecloaked wurde.

Beitrag von **depp ich** » 24.06.2006, 14:55

Ich halte es für völlig unmöglich, irgendwelche Spam-Tricks am CSS zu erkennen, außer es ist offensichtlich (1px H1 usw)

Wahrscheinlich ist es das Effektivste, den Bot das CSS nur holen zu lassen und dann auf das schwache Nervenkostüm der SEOs zu vertrauen.
Möglichberweise wird auch der Umstand genutzt, dass sich die meisten CSS kaum ändern.

Beitrag von **phereia** » 24.06.2006, 14:59

depp ich hat geschrieben:Ich halte es für völlig unmöglich, irgendwelche Spam-Tricks am CSS zu erkennen, außer es ist offensichtlich (1px H1 usw)

Selbst letzteres führt im Moment noch zu keiner Konsequenz (sofern keine Spammeldung vorliegt).

Beitrag von **MonikaTS** » 24.06.2006, 15:36

naja

ich werde weiterhin ganz usability meine Sprungmarken mit

Code: Alles auswählen

.invisible&#123;position&#58;absolute;left&#58;-3999px;width&#58;999px;&#125;

verstecken,

sollte ich wohl einen Link zu einen Textbrowser legen, damit sich dies G Guys nicht so schwer tun, beim Kontrollieren

wer mit CSS was verstecken mag, wird nicht
h1 0.1em geben

und wenn, ==>

ich habe immer schon gesagt, wer nicht CSS kann, soll die Finger davon lassen

und wer für:
gleiche Hintergrundfarbe wie Textfarbe abgetraft wird,
merkt sich wenigst, dass dies aus usability Gründen eine Unmöglichkeit ist,

es ist heiß und Samstag,

aber wenn auf der einen Seite erzählt wird, dass der Robot gar keine Tabellen nie nicht erkennt,
und auf der anderen Seite mir auf einmal klargemacht werden sollte,
dass das Spidern der CSS der Spamerkennung dienen soll,

der strapaziert meine Logik auch.

Es gibt ja nichts was es nicht gibt, doch die Tatsache des Spiderns ist an sich keine Paranoia noch wert, denke ich mir.

lg