Googlebot liest CSS und JS

Beitrag von **t-rex** » 24.04.2009, 12:25

Hi,

Nach meinem Wissensstand ist die Meinung verbreitet, dass Googlebot und Konsorten sich nicht für CSS und JS interessieren. Da habe ich das Argument im Ohr: "Warum sollte das Google tun!? Das kostet viel zu viel Rechenleistung."

Bei Yahoo habe ich es in den letzten Wochen schon mehrfach gesehen, dass der Bot "Slurp" auch JS und CSS Dateien ausliest. Und dies auch mit Referer. Eigentlich hielt ich das schon für normal und zumindest nicht erwähnenswert, da Yahoo für SEO nur eine untergeordnete Rolle spielt.

Hier ein Beispiel:

Code: Alles auswählen

72.30.142.106 - - &#91;24/Apr/2009&#58;00&#58;40&#58;05 +0200&#93; "GET /tag/xxx HTTP/1.0" 200 32821 "-" "Mozilla/5.0 &#40;compatible; Yahoo! Slurp/3.0; http&#58;//help.yahoo.com/help/us/ysearch/slurp&#41;"
72.30.142.106 - - &#91;24/Apr/2009&#58;00&#58;40&#58;11 +0200&#93; "GET /wp-content/plugins/social_bookmarks/lib/niftyCube/niftyCorners.css HTTP/1.0" 304 - "http&#58;//www.xxx.com/tag/xxx" "Mozilla/5.0 &#40;compatible; Yahoo! Slurp/3.0; http&#58;//help.yahoo.com/help/us/ysearch/slurp&#41;"
72.30.142.106 - - &#91;24/Apr/2009&#58;00&#58;40&#58;16 +0200&#93; "GET /wp-content/plugins/wp-email/email-css.css?ver=2.40 HTTP/1.0" 304 - "http&#58;//www.xxx.com/tag/xxx" "Mozilla/5.0 &#40;compatible; Yahoo! Slurp/3.0; http&#58;//help.yahoo.com/help/us/ysearch/slurp&#41;"
72.30.142.106 - - &#91;24/Apr/2009&#58;00&#58;40&#58;18 +0200&#93; "GET /wp-content/themes/xxx.com/pagenavi-css.css HTTP/1.0" 304 - "http&#58;//www.xxx.com/tag/xxx" "Mozilla/5.0 &#40;compatible; Yahoo! Slurp/3.0; http&#58;//help.yahoo.com/help/us/ysearch/slurp&#41;"
72.30.142.106 - - &#91;24/Apr/2009&#58;00&#58;40&#58;20 +0200&#93; "GET /styles/style.css HTTP/1.0" 304 - "http&#58;//www.xxx.com/tag/xxx" "Mozilla/5.0 &#40;compatible; Yahoo! Slurp/3.0; http&#58;//help.yahoo.com/help/us/ysearch/slurp&#41;"
72.30.142.106 - - &#91;24/Apr/2009&#58;00&#58;40&#58;23 +0200&#93; "GET /styles/jd.gallery.css HTTP/1.0" 304 - "http&#58;//www.xxx.com/tag/xxx" "Mozilla/5.0 &#40;compatible; Yahoo! Slurp/3.0; http&#58;//help.yahoo.com/help/us/ysearch/slurp&#41;"

Heute dann habe ich zum ersten mal gesehen, dass auch der Googlebot sich für JS und CSS interessiert.

Auch hier ein Beispiel:

Code: Alles auswählen

66.249.73.72 - - &#91;24/Apr/2009&#58;11&#58;25&#58;16 +0200&#93; "GET /robots.txt HTTP/1.1" 200 24 "-" "Mozilla/5.0 &#40;compatible; Googlebot/2.1; +http&#58;//www.google.com/bot.html&#41;"
66.249.73.72 - - &#91;24/Apr/2009&#58;11&#58;25&#58;17 +0200&#93; "GET /wp-content/plugins/wp-pagenavi/pagenavi-css.css HTTP/1.1" 200 1753 "-" "Mozilla/5.0 &#40;compatible; Googlebot/2.1; +http&#58;//www.google.com/bot.html&#41;"
66.249.73.72 - - &#91;24/Apr/2009&#58;11&#58;25&#58;18 +0200&#93; "GET /wp-content/themes/xxx.info/js/effects.core.js HTTP/1.1" 200 19170 "-" "Mozilla/5.0 &#40;compatible; Googlebot/2.1; +http&#58;//www.google.com/bot.html&#41;"
66.249.73.72 - - &#91;24/Apr/2009&#58;11&#58;25&#58;18 +0200&#93; "GET /wp-content/themes/xxx.info/style.css HTTP/1.1" 200 31627 "-" "Mozilla/5.0 &#40;compatible; Googlebot/2.1; +http&#58;//www.google.com/bot.html&#41;"
66.249.73.72 - - &#91;24/Apr/2009&#58;11&#58;26&#58;41 +0200&#93; "GET /wp-content/themes/xxx.info/js/jquery-latest.js HTTP/1.1" 200 117302 "-" "Mozilla/5.0 &#40;compatible; Googlebot/2.1; +http&#58;//www.google.com/bot.html&#41;"
66.249.73.72 - - &#91;24/Apr/2009&#58;11&#58;26&#58;42 +0200&#93; "GET /wp-content/themes/xxx.info/js/functions.js HTTP/1.1" 200 619 "-" "Mozilla/5.0 &#40;compatible; Googlebot/2.1; +http&#58;//www.google.com/bot.html&#41;"

Nebenbei fiel mir noch auf, dass der Googlebot, obwohl ich diese Seite nirgends verifizieren lies. Also nirgends in den Webmastertools, Adsense, Adwords oder sonst wo eingetragen habe, einen 404 Check macht.

Hier der Logfileauszug:

Code: Alles auswählen

66.249.73.72 - - &#91;22/Apr/2009&#58;13&#58;25&#58;48 +0200&#93; "GET /pzolqijdcvbepvcd.html HTTP/1.1" 404 25469 "-" "Mozilla/5.0 &#40;compatible; Googlebot/2.1; +http&#58;//www.google.com/bot.html&#41;"

Ich habe jetzt stichprobenmässig einige Logfiles von über 100 Domains der letzten 2 Jahre durch gearbeitet. Ich finde da zwar Einträge in Verbindung mit CSS/JS von Yahoo, aber keine solche Einträge vom Googlebot.

Die Logfileauszüge (Googlebot) sind von einer Domain, die ich vor knapp einem Jahr registriert, aber erst vor 4 Tagen mit Content bestückt habe. Bis vor 4 Tagen lief die Domain noch auf einer anderen IP mit einer Fehlerseite (403). Nachdem ich den Content eingestellt hatte, habe ich einmal einen Ping abgesetzt und hab bis heute nichts verändert. Erst heute habe ich ein paar Links gesetzt.

Der Logfileauszug ganz oben (Yahoo) ist von einer etwa 4 Jahre alten Domain.

Warum tut Google das? Was für ein Interesse hat Google an den CSS und JS Dateien?
Wenn Google die Files im Kontext der Seite auswerten könnte/kann, dann ist Google wohl in der Lage schmutzige Tricks zu erkennen, und die Seite abzustrafen oder zu filtern. Es wäre dann aber auch möglich, dass Goolge auch "legale" dynamische Elemente auf der Seite erkennt, und diese dann entsprechend bewertet. Z.B. ein ausklappbares Menü wovon zwar alle Links im HTML Code eingebettet sind, aber nur die erste Ebene auch sichtbar ist.

Ich sehe das jetzt nicht als Beweis, dass Google diese Geschichten voll auswertet, um spammige Methoden zu erkennen, aber ich denke es geht in diese Richtung. Oder was meint Ihr?

Sonnige Grüsse
HaPe

von **Anzeige von ABAKUS** »

Hochwertiger Linkaufbau bei ABAKUS:

Google-konformer Linkaufbau
nachhaltiges Ranking
Linkbuilding Angebote zu fairen Preisen
internationale Backlinks

Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Beitrag von **Anonymous** » 24.04.2009, 12:29

naja... per css oder js lassen sich Inhalte ganz gut vor dem Besucher verstecken... und Google will ja möglichst wissen was der User wirklich zu sehen bekommt und ob es zusätzlich noch Contentteile gibt die für den Bot und nicht für den User gedacht sind...

Beitrag von **gnark** » 24.04.2009, 13:00

t-rex hat geschrieben:Ich sehe das jetzt nicht als Beweis, dass Google diese Geschichten voll auswertet, um spammige Methoden zu erkennen, aber ich denke es geht in diese Richtung. Oder was meint Ihr?

sieht so aus, ist auch ein logischer schritt in sachen spambekämpfung

von **Anzeige von ABAKUS** »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:

einzigartige Texte
suchmaschinenoptimierte Inhalte
eine sinnvolle Content-Strategie
Beratung und Umsetzung

Jetzt anfragen: 0511 / 300325-0

Beitrag von **Mork vom Ork** » 24.04.2009, 14:57

t-rex hat geschrieben:Nach meinem Wissensstand ist die Meinung verbreitet, dass Googlebot und Konsorten sich nicht für CSS und JS interessieren. Da habe ich das Argument im Ohr: "Warum sollte das Google tun!? Das kostet viel zu viel Rechenleistung."

Es spricht nichts gegen stichprobenartige Zugriffe, und wer allen Ernstes glaubt, Google interessiere sich überhaupt nicht für CSS und Javascript, obwohl genau das die (vermeintlich) sichersten Methoden sind, Google zu bescheißen, kann auch auf den Weihnachtsmann hoffen.
Mich wundert immer wieder, dass viele meinen, die Google-Fuzzis wären irgendwie geistig zurückgeblieben und nicht in der Lage, den SEO-Markt zu beobachten. Ich bin mir jedenfalls sehr sicher, dass die in alle Richtungen arbeiten, einschließlich einer automatisierten Auswertung von CSS- und Javascript-Geschichten. Vielleicht ist die Technik ja so langsam spruchreif. Vielleicht wollen sie aber auch nur Gerüchte in die Welt setzen, denn für Massenpanik ist ein gewisser Personenkreis gut zu haben (Stichwort DC).

Nebenbei fiel mir noch auf, dass der Googlebot, obwohl ich diese Seite nirgends verifizieren lies[…], einen 404-Check macht.

Es gibt genug Schlauberger, um nicht zu sagen Massen, die nicht in der Lage sind, ihren Server so einzurichten, dass er sinnvolle Antworten gibt. Dass Google auf die korrekte Auslieferung der Fehlercodes achtet, ist reine Notwehr, die müllen sich doch sonst den Index mit nutzlosen, da falschen URLs zu.

Beitrag von **depp ich** » 24.04.2009, 16:55

Yahoo fragt schon lange nach nicht existenten URLs. War nur eine Frage der Zeit, bis es auch Google macht. Ist auch sinnvoll.

Dass Google mit irgendeinem Algo zumindest stichprobenartig überprüft, ob das was im Browser tatsächlich zu sehen ist, mit dem übereinstimmt, was der Quellcode hergibt - da bin ich mir sowieso sicher.
Wenn ein moderner Screenreader alles vorlesen kann, was auf dem Schirm ist - inklusive Javascript, Frames, via CSS ausgeblendete Texte usw - dann wird das Google wohl auch zusammenbringen, auch wenns mehr Rechenaufwand ist.
Wer weiß, vielleicht ist Chrome ein "Abfallprodukt" dieses Algos.

Beitrag von fw » 24.04.2009, 17:15

Google liest seit mehreren Jahren css und js Dateien.

@depp ich
Ein Screenreader interessiert sich nicht für css. Deshalb ist kein Text ausgeblendet und es wird einfach alles vorgelesen.
Das ist also was ganz anderes als css korrekt interpretieren um festzustellen ob ein Text versteckt wird.
Mit deiner Vermutung bzgl. Chrome liegst du sicher richtig.

KSO äußerte sich bereits 2005 entsprechend:
https://www.kso.co.uk/de/blog/200501.html

Beitrag von **depp ich** » 24.04.2009, 17:45

Mit "Modernem Screenreader" meinte ich nicht diese Hardware-Kisten, sondern Browser-PlugIns, die scheinbar direkt auf die Darstellung (wohl etwas laienhaft ausgedrückt) zugreifen.

Dass Google schon länger auf CSS und JS zugreift, sagt ja nicht, was er/sie/es damit tut. Das kann reichen von "display:none" abzählen bis hin zur "gesamtheitlichen" Interpretation einer Seite - mit allem dran. Mit ersterer Variante wird man nicht weit kommen, da gibt es immer _noch_ einen Trick. Nur die tatsächliche Interpretation durch eine Render-Engine bringt Sicherheit.

Ich habe übrigens schon länger das Gefühl, dass Seiten mit Drop-Down Menü schlecht gerankt werden.

Beitrag von **t-rex** » 25.04.2009, 03:43

Hi,

freut mich, dass hier so eine Einigkeit herrscht

Google liest seit mehreren Jahren css und js Dateien

Mir ist diesbezüglich bis gestern nichts bekannt gewesen. Und ich hatte bisher auch nie was in den Logfiles entdeckt. Sonst hätte ich das gestern wahrscheinlich auch nicht geschrieben. Hast Du irgendwelche gesicherte Quellen?

Wer weiß, vielleicht ist Chrome ein "Abfallprodukt" dieses Algos.

Da hast Du absolut Recht auch wenn Google mit Chrome sicher noch andere strategische Ziele verfolgt. Nicht umsonst betonen sie ja bei jeder Gelegenheit, dass sie die Javascript-Engine und den Renderer optimiert haben.

KSO äußerte sich bereits 2005 entsprechend:
https://www.kso.co.uk/de/blog/200501.html

Schallhorn hatte das damals schon gut erkannt. Allerdings hatte Google damals wohl noch nicht so die richtige Idee was sie wollten. Denn schlussendlich ist zumindest bei Chrome der Renderer Webkit eingebaut worden. Okay, müsste ich mich näher mit irgendeinem Renderer beschäftigen, würde ich wohl auch erst einmal mit Mozilla Gecko anfangen, weil es dazu einfach mehr Material gibt.

Was mir gerade noch aufgefallen ist, gestern morgen aber gar nicht so bewusst war, ist dass nur ein paar Dateien angefasst wurden. Was aus meiner Sicht eher für einfache Tests ausreicht/spricht. Denn um eine komplette Seite zu rendern und zu analysieren, muss man schon alles einbinden und anwenden was zur Seite gehört.

Sonnige Grüsse
HaPe

Beitrag von **Rem** » 25.04.2009, 21:48

Ich hatte auf einer alten Frame-Seite einen JS-Seitennachlader drin. Das war aber nicht in einer externen Datei.

Das beunruhigende war aber, dass Google versuchte, die Befehle im JS-Script-Teil zu interpretieren...
Leider falsch zu interpretieren.

Im JS war ein window.redirect und eine URL, auf der das Frame-Gerüst gespeichert war (wo weiteres JS dafür sorgte, dass die korrekte Seite wieder da rein geladen wurde).

Was ist passiert:
- google fängt an, statt die Daten der Content-Seiten, die Daten der Frame-Nachlader-Seite unter der ursprünglichen Seite im Search-Index zu speichern (insofern: da stand NIX darauf).

Meine Seiten rutschten plötzlich ab. Täglich waren ca. 200 Seiten aus dem Index verschwunden, nur weil google das "window.redirect" falsch interpretiert hatte.

LASSEN WIR ABER EINE DISKUSSION UEBER FRAMES, ich will einzig sagen:
Passt gut auf, was ihr im JS habt. Google liest das nämlich nicht nur, google "versucht das zu interpretieren".
Das hat rein gar nichts mit Rendern zu tun, sondern womöglich einzig mit einer Liste an JS-Befehlen und Strunzdummen "if"-Anweisungen eines Google-Programmierers...

Nun für Euch das schockierende:
das passierte vor drei Jahren.

Fazit:
Ich nutze weiterhin JS. Aber ich lasse dirty Sachen wie redirects weg, ich versuche "URLs" im JS-Code möglichst versteckt einzubauen, da ich nicht will, dass Google irgendwas mit der eingebetteten URLs macht - was auch immer.

Beitrag von **t-rex** » 26.04.2009, 03:23

Hi Rem

das passt zu einer anderen Beobachtung, die ich vor etwa zwei Wochen gemacht habe.

Da hatte ich eine ältere (eigentlich abgeschriebene) Domain von mir kontrolliert. Auf den Unterseiten hatte ich eine Javascript Weiterleitung drin, die den User automatisch auf eine Bezahlseite weiter leitete.

Code: Alles auswählen

<script language="JavaScript">
<!--
   var a="win";
   var b="dow.";
   var c="loc";
   var d="ation.";
   var f="href";
   var g="='htt";
   var h="p&#58;//www.xxx.com/";
   eval&#40;a+b+c+d+f+g+h&#41;;   
//-->
</script>

Die Seite enthielt sonst keine weiteren Weiterleitungen wie Meta Refresh oder Redirect per htaccess.

Als ich die Seite vor 2 Wochen mit "site:domain.net" kontrolliert hatte, fiel mir in den Serps auf, dass einige dieser Unterseiten mit dem Titel und Snippet der Zielseite "xxx.com" aus der Javascript-Weiterleitung gelistet waren und nicht mit ihren eigenen Daten. So wie ich es bei einem Meta Refreah oder htaccess Redirect erwarten würde.

Das hat rein gar nichts mit Rendern zu tun, sondern womöglich einzig mit einer Liste an JS-Befehlen und Strunzdummen "if"-Anweisungen eines Google-Programmierers...

Stimmt, die Interpretation des JS Codes insbesondere mit so einfachen Anweisungen wie hier nichts zu tun. Um so etwas auszuwerten reicht eine Javascript Engine, die man über die Kommandozeile ansteuern kann. Beispiel: https://developer.mozilla.org/En/Spider ... ript_shell

Dass die nur mit ein paar if Anweisungen versuchen, das auszuwerten, glaube ich nicht.

Der Renderer wird dann interessant, wenn es darum geht, den schlussendlich zur Anzeige relevanten und sichtbaren Code zu erhalten. Und um den zusammenzubauen ist es notwendig, ALLE Bestandteile ().js und .css der Seite zu kennen.

Achja und wegen Strunzdumm. Mork vom Ork hatte es ja schon gesagt.

Mich wundert immer wieder, dass viele meinen, die Google-Fuzzis wären irgendwie geistig zurückgeblieben und nicht in der Lage, den SEO-Markt zu beobachten.

Sonnige Grüsse
HaPe

Beitrag von **Eatofid** » 26.04.2009, 19:42

Hey!

Viele meinen ja immer, dass CSS so wichtig für google sei, aber ich habe auch schon des öfteren in echt guten SEO Blogs gelesen, dass dem nicht so sei. Vor allem Flash und Java Script ist für die robots nicht so toll zu lesen soweit ich weiß.

Mfg Eato
https://gladnotsad.com
Neue Ausgabe online

Beitrag von **HaraldHil** » 28.04.2009, 09:50

Eatofid hat geschrieben:in echt guten SEO Blogs

Wo zum Beispiel?

Beitrag von **Schnipsel** » 28.04.2009, 21:15

Eatofid hat geschrieben:
aber ich habe auch schon des öfteren in echt guten SEO Blogs gelesen

Ok, lesen kannst du - aber verstehst du auch was du liest?

"Viele meinen ja immer, dass CSS so wichtig für google sei..." Ich glaube nicht das du auch nur ansatzweise etwas verstehst! Und hör endlich auf hier wegen deiner Signatur das Forum vollzumüllen.

Beitrag von **Rem** » 29.04.2009, 19:40

@T-Rex und die anderen:
Hallo T-Rex,

Dein Beispiel ist ähnlich faszinierend, denn ich nutze solche einfache Mathe heute noch (aber nur für interne Links, statt nofollow).

"Strunzdumm"
Ich mein, ein Computer befolgt nur sinnlos Befehle. Genau das will ich mit "Strunzdumm" ausdrücken. Damals hatte ich noch das Gefühl, Google würde das strunzdumm nach Schema entscheiden:
- ist "redirect" enthalten?
- ist "URL" enthalten?
- kopiere Inhalte von "URL" und nicht von der aktuellen Seite.

Darum habe ich auch "if"-Anweisung geschrieben, natürlich extrapolierend, dass google das heute wohl nicht mehr so handhabt.

Aber wie "intelligent" google heute ist? Keine Ahnung.
Wenn die wirklich rendern, dann könnte ich meine alte "Taktik" natürlich wieder fahren, aber irgendwie ist mir das sehr suspekt... Verdammt suspekt.

Aber die Sensation, "google liest CSS und JS" ist eben nicht mal aussergewöhnlich... Denn die sind längst einen Schritt weiter.

Ich nutze übrigens JS als Ersatz für "nofollow" bei Affiliate-Links" Ich hoffe, google sieht das ähnlich und wertet die Links nicht falsch... ansonsten werde ich wohl "nofollow" noch ins JS schreiben. Wie hirnrissig.

Beitrag von **t-rex** » 29.04.2009, 21:22

Hi Rem,

ich glaube, da ist unsere Diskussion ein bisschen missverständlich verlaufen

Ich hatte dich da so richtig verstanden! Ich wollte eigentlich mit dem Quote nur noch die Meinung, dass es vielleicht nicht so simple läuft untermauern. Hoffe, das war verständlich.

Ich höre jetzt auch grad wieder auf, sonst rede ich mich hier wie bei meiner Frau um Kopf und Kragen.

Sonnige Grüsse
HaPe