Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Googlebot holt sich bei Crawl auch externe CSS-Dateien

Dieses Forum ist für Informationen über Google gedacht (Ausser PageRank!).
phereia
PostRank 8
PostRank 8
Beiträge: 726
Registriert: 23.04.2004, 23:19

Beitrag von phereia » 23.06.2006, 11:19

Fridaynite hat geschrieben:Holt sich Google schon lang und suppt sie anschliessend wieder.
Nein. Das sind - zumindest soweit mir bekannt - CSS-Dateien, die "normal" verlinkt sind, etwa als Demo etc.

Edit: Interessant, daß offensichtlich viele (alle?) der betreffenden CSS-Dateien das gleiche Cache-Datum aufweisen.

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

oldInternetUser
PostRank 9
PostRank 9
Beiträge: 1250
Registriert: 19.03.2005, 12:52

Beitrag von oldInternetUser » 23.06.2006, 14:31

Die interessante Frage ist, ob diese neu gespiderten CSS-Dateien irgendwann mal in der regulären Suche auftauchen.

Immerhin gab es schon Anfragen in Foren (und wohl auch an google), wie man nach CSS- oder JavaScript - Code suchen könne.

Andy.C
PostRank 5
PostRank 5
Beiträge: 249
Registriert: 22.03.2005, 04:01
Wohnort: Berlin

Beitrag von Andy.C » 23.06.2006, 17:42

es währe Technisch möglich dass Google Texte mit der Farbe des Hintergrundes erkennt. color:#FFFFFF; und background-color:#FFFFFF; wobei es eine unzahl an Spammethoden gibt die ich nicht nennen möchte.

Allein der Robot wird Spam nicht ohne weiteres erkennen können. Menschliche Helfer werden dennoch benötigt, um zu bewerten ob es gezielt Spam oder ein Mitbringsel einer Javascript-Funktion o.ä. ist.

Grüße

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

thetrasher
PostRank 5
PostRank 5
Beiträge: 238
Registriert: 31.12.2005, 10:50
Wohnort: Bad Tölz

Beitrag von thetrasher » 23.06.2006, 18:48

phereia hat geschrieben:Interessant ist auch die Frage, ob der Googlebot einer Stylesheet "Kaskade" folgt, also CSS-Dateien aufruft, die selbst über eine andere CSS-Datei importiert bzw. eingebunden werden.
Nein, Googlebot nimmt nur die aus der HTML-Seite verlinkte CSS-Datei. Vorerst :wink:
66.249.72.171 - - [23/Jun/2006:04:40:49 +0200] "GET /style.css HTTP/1.1" 200 121 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"

phereia
PostRank 8
PostRank 8
Beiträge: 726
Registriert: 23.04.2004, 23:19

Beitrag von phereia » 24.06.2006, 08:49

thetrasher hat geschrieben:Nein, Googlebot nimmt nur die aus der HTML-Seite verlinkte CSS-Datei. Vorerst
Ist das getestet bzw. belegt? Dann kann ich mir nämlich einen eigenen Versuch sparen.

Im übrigen halte ich es für einen interessanten und richtigen Ansatz, daß Google jetzt möglicherweise versuchen möchte, sich auch um CSS-Spam-Tricks zu kümmern. Allerdings glaube ich, daß die technische Herausforderung, so etwas mit akzeptablem Rechenaufwand zu lösen, nicht gerade klein ist. Im Grunde kommt aus meiner Sicht dafür - wie weiter oben geschrieben - nur ein Scoring-System in Frage. Damit hätte man dann sogar eine Lösung für diejenigen, die ihre CSS-Dateien vom Spidern ausschließen. Stellt der Robot das fest, gilt das per se erst einmal als verdächtig und wird mit einem Malus belegt.

twitch
PostRank 9
PostRank 9
Beiträge: 1222
Registriert: 09.04.2005, 14:01

Beitrag von twitch » 24.06.2006, 09:16

wie üwrde denn ein Eintrag in der robots.txt aussehen um css-Dateien auszuschließen?

kill_bill
PostRank 8
PostRank 8
Beiträge: 882
Registriert: 07.07.2005, 00:31
Wohnort: Meppen

Beitrag von kill_bill » 24.06.2006, 09:28

twitch hat geschrieben:wie üwrde denn ein Eintrag in der robots.txt aussehen um css-Dateien auszuschließen?
Vielleicht würde Google dann hingehen und Seiten, deren Bestandteile nicht komplett gelesen werden können, abwerten - wäre nur logisch.
Btw impliziert das absichtliche Sperren der css-Dateien die Vermutung, dass mit unehrenhaften Mitteln gearbeitet werden könnte. Und auf solche Seiten können wir imho auch gerne verzichten.
Zuletzt geändert von kill_bill am 24.06.2006, 10:00, insgesamt 1-mal geändert.

thetrasher
PostRank 5
PostRank 5
Beiträge: 238
Registriert: 31.12.2005, 10:50
Wohnort: Bad Tölz

Beitrag von thetrasher » 24.06.2006, 09:53

phereia hat geschrieben:Ist das getestet bzw. belegt? Dann kann ich mir nämlich einen eigenen Versuch sparen.
Die Datei style.css enthält zu Anfang die Anweisung

Code: Alles auswählen

@import url("style2.css");
style2.css wurde nicht gespidert. Noch nicht.

Conditional comments verfolgt Googlebot ebenfalls (noch) nicht.

Code: Alles auswählen

<!--&#91;if IE&#93;><link rel="stylesheet" type="text/css" href="msie.css" /><!&#91;endif&#93;-->
msie.css wurde nicht gespidert.

Kann mir gut vorstellen, dass es Google nicht nur um die Jagd nach CSS-Cloakern geht, sondern dass Vorschaubilder angezeigt werden sollen.

phereia
PostRank 8
PostRank 8
Beiträge: 726
Registriert: 23.04.2004, 23:19

Beitrag von phereia » 24.06.2006, 10:29

kill_bill hat geschrieben:Btw impliziert das absichtliche Sperren der css-Dateien die Vermutung, dass mit unehrenhaften Mitteln gearbeitet werden könnte. Und auf solche Seiten können wir imho auch gerne verzichten.
Das greift von der Argumentation zu kurz. Es gibt genügend Projekte, in denen sich alle nicht-HTML Resourcen beipsielsweise in einem Verzeichnis namens "files" befinden. Und ein solches Verzeichnis vom Spidern auszuschließen dürfte eher die Regel sein.

Und um in der Argumentation noch einen Schritt weiterzugehen: es steht - meines Wissens - noch immer der Nachweis aus, daß Google Cloaking von HTML-Seiten ohne humanoide Mithilfe selbständig über "undercover" Bots erkennt. Um wieviel schwieriger dürfte es noch werden, CSS-Cloaking automatisiert zu erkennen.
thetrasher hat geschrieben:Kann mir gut vorstellen, dass es Google nicht nur um die Jagd nach CSS-Cloakern geht, sondern dass Vorschaubilder angezeigt werden sollen.
Dann bin ich gespannt, wann es die ersten CSS-"Hacks" für die Google Darstellung gibt. ;-)

kill_bill
PostRank 8
PostRank 8
Beiträge: 882
Registriert: 07.07.2005, 00:31
Wohnort: Meppen

Beitrag von kill_bill » 24.06.2006, 10:48

Dein Argument zu meiner Aussage lasse ich gelten :)

Zu deinem weiteren Argument:
Wo liegt die Schwierigkeit für ein automatisiertes System, zu erkennen, dass Div-Container A mit der Regel left:-1000px ein Spam-Container ist?
Und um Cloaking zu erkennen brauchen die wirklich nur eine Kontrolldatei eines "undercover" Bots - und das auch nur stichprobenartig.

phereia
PostRank 8
PostRank 8
Beiträge: 726
Registriert: 23.04.2004, 23:19

Beitrag von phereia » 24.06.2006, 11:28

kill_bill hat geschrieben:Wo liegt die Schwierigkeit für ein automatisiertes System, zu erkennen, dass Div-Container A mit der Regel left:-1000px ein Spam-Container ist?
Das dürfte ein Beispiel sein, welches in der Praxis nur von CSS-Laien so umgesetzt wird. Wer es darauf anlegt, hat mit CSS ein beinahe unerschöpfliches Reservoir an Möglichkeiten, Text zu "verstecken", welches durch einen "theoretischen Blick" auf das Stylesheet auch nicht ohne weiteres zu entdecken ist (wenn z.B. mit Kombinationen von Selektoren, IDs und ähnlichem gearbeitet wird).
Und um Cloaking zu erkennen brauchen die wirklich nur eine Kontrolldatei eines "undercover" Bots - und das auch nur stichprobenartig.
Ich bin nach wie vor der Meinung, daß ein solcher Ansatz nicht funktioniert. Im Grunde müßte dann nämlich ein Screenshot, den ein "undercover" Bot gemacht hat mit einem Screenshot der Seite, wie sie der "reguläre" Bot zu sehen bekommt, verglichen werden. Aber das reicht natürlich nicht, denn es gibt genügend Webautoren, die - aus welchen Gründen auch immer - sog. Browserweichen einsetzen und die Browser mit unterschiedlichen Versionen der Seite bedienen. Und in der Regel sind die dabei erzeugten unterschiedlichen Versionen rein optisch - entgegen der Intention - trotzdem nicht absolut deckungsgleich. Ergo müßten "regulärer" und "undercover" Bot mit identischer Browserkennung unterwegs sein.

Manchmal finde ich es richtig schade, daß ich a) einen seriösen und soliden Brotberuf habe und b) nicht programmieren kann, denn das Thema CSS und Suchmaschinen halte ich für absolut spannend.

ArturO
PostRank 6
PostRank 6
Beiträge: 372
Registriert: 25.09.2005, 10:41

Beitrag von ArturO » 24.06.2006, 13:41

Wenn Google die CSS dateien nicht cached, gibt es für blackhat seos immernoch die möglichkeit die css dateien zu cloaken. Einfach die .css dateien in php parsen lassen.
Die Html-Cache seiten werden schließlich mit dem original css verlinkt.
Der Googlebot bekommt eine reine CSS Datei zu sehen, verlinkt wird in der cache version der htmlseite jedoch die ungecloakte css datei. Da standartmäßig css dateien nicht im cache gezeigt werden, solange sie nicht aktiv verlinkt sind, kann man als 0815 user auch nicht sehen ob eine css datei gecloaked wurde.

depp ich
PostRank 9
PostRank 9
Beiträge: 1508
Registriert: 06.12.2004, 12:59

Beitrag von depp ich » 24.06.2006, 14:55

Ich halte es für völlig unmöglich, irgendwelche Spam-Tricks am CSS zu erkennen, außer es ist offensichtlich (1px H1 usw)

Wahrscheinlich ist es das Effektivste, den Bot das CSS nur holen zu lassen und dann auf das schwache Nervenkostüm der SEOs zu vertrauen.
Möglichberweise wird auch der Umstand genutzt, dass sich die meisten CSS kaum ändern.

phereia
PostRank 8
PostRank 8
Beiträge: 726
Registriert: 23.04.2004, 23:19

Beitrag von phereia » 24.06.2006, 14:59

depp ich hat geschrieben:Ich halte es für völlig unmöglich, irgendwelche Spam-Tricks am CSS zu erkennen, außer es ist offensichtlich (1px H1 usw)
Selbst letzteres führt im Moment noch zu keiner Konsequenz (sofern keine Spammeldung vorliegt).

MonikaTS
PostRank 10
PostRank 10
Beiträge: 3582
Registriert: 07.10.2005, 09:05

Beitrag von MonikaTS » 24.06.2006, 15:36

naja

ich werde weiterhin ganz usability meine Sprungmarken mit

Code: Alles auswählen

.invisible&#123;position&#58;absolute;left&#58;-3999px;width&#58;999px;&#125;
verstecken,

sollte ich wohl einen Link zu einen Textbrowser legen, damit sich dies G Guys nicht so schwer tun, beim Kontrollieren 8)


wer mit CSS was verstecken mag, wird nicht
h1 0.1em geben

und wenn, ==>

ich habe immer schon gesagt, wer nicht CSS kann, soll die Finger davon lassen 8)

und wer für:
gleiche Hintergrundfarbe wie Textfarbe abgetraft wird,
merkt sich wenigst, dass dies aus usability Gründen eine Unmöglichkeit ist,

es ist heiß und Samstag,

aber wenn auf der einen Seite erzählt wird, dass der Robot gar keine Tabellen nie nicht erkennt,
und auf der anderen Seite mir auf einmal klargemacht werden sollte,
dass das Spidern der CSS der Spamerkennung dienen soll,

der strapaziert meine Logik auch.

Es gibt ja nichts was es nicht gibt, doch die Tatsache des Spiderns ist an sich keine Paranoia noch wert, denke ich mir.

lg

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag