Überschriften verunreinigen

Beitrag von **Kristian** » 04.05.2013, 16:35

Hallo,

wir haben hier gerade hausintern ein Diskussion, die interessant ist.
Folgender Code:

<h1>keyword1 keyword2 keyword3</h1>

wäre ein klarer Fall.
Wie sieht es aus, wenn ich sowas mache:

Code: Alles auswählen

<h1><span style="#color&#58;#cc0000;">keyword1</span> <span style="#color&#58;#00cc00;">keyword2</span> <sup>keyword3</sup></h1>

Wie sehr verunreinigt das bzw. entwertet das meine h1?

Ich als Programmierer, der schon mal nen Bot geschrieben hat, sehe da Relevanz.
Die Designer hier erklären mich für verrückt.

Was sagt Ihr?

Gruß
Kristian

von **Anzeige von ABAKUS** »

Hochwertiger Linkaufbau bei ABAKUS:

Google-konformer Linkaufbau
nachhaltiges Ranking
Linkbuilding Angebote zu fairen Preisen
internationale Backlinks

Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Beitrag von **Melegrian** » 04.05.2013, 18:26

Kristian hat geschrieben:Die Designer hier erklären mich für verrückt.

Womit die Designer eventuell nicht ganz Unrecht haben.
Doch als Programmierer, wenn ich nach Beispielen suche und dabei Anführungszeichen verwende.

Mit Anführungszeichen gesuchter String: "echo $eine_variable"
Gefundener Treffer mit fetter Markierung im Snippet von Google:

Konstrukt, aber es verhält sich wie eine Funktion, // so dass es in diesem Kontext verwendet werden kann echo $eine_variable ? 'true': 'false'; // Das Statement ...

Formatierung im Quelltext der Seite:

Code: Alles auswählen

<span style="color&#58; #007700">echo&nbsp;</span><span style="color&#58; #0000BB">$eine_variable&nbsp;</span>

https://php.net/manual/de/function.echo.php

Somit scheint sich Google bei einem direkten Vergleich nicht sonderlich viel aus Formatierungen zu machen. Falls Google mit Shingles oder so etwas ähnlichem arbeitet, werden die wohl vorher von unnötigem Ballast wie Formatierungen befreit. Kann mich aber auch irren, müsste man noch nach ein paar weiteren Beispielen aus unterschiedlichen Quellen suchen.

Beitrag von **Kristian** » 04.05.2013, 19:12

Hallo,

ich weiß nicht, ob die PHP-Bibel da hilft.
Ich verbiete - als Seo - Google, in meine CSS zu schauen, damit er nicht sieht, wie groß meine H[1-3] sind, weil ich glaube, dass er das wertet.
Wie soll er dann h1 big strong toll __TEXT__ /toll /strong /big /h1 werten?

Als Programmierer habe ich die Schwierigkeit, dass h1 __TEXT__ /h1 einen String ergibt.
h1 big __TEXT__ / big big __TEXT__ /big / h1 ergibt ein Array.

Was genau der G-Bot da macht werden wir nie erfahren aber SEO ist ja auch keine Wissenschaft, die auf Tatsachen beruht...

Gruß
Kristian

von **Anzeige von ABAKUS** »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002

persönliche Betreuung
individuelle Beratung
kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.

Beitrag von **Melegrian** » 04.05.2013, 20:18

Ich meinte jetzt nicht PHP damit oder irgendwelchen Code, mir ist nur nichts Besseres als Beispiel eingefallen. Ich meinte damit, Google scheint keine Probleme damit zu haben, einen beliebigen Suchstring oder Longtail zu finden, egal wie der im Quelltext formatiert ist. Also, wenn ich das jetzt "keyword1 keyword2 keyword3" mit Anführungszeichen eingeben würde, dann würde Google "keyword1 keyword2 keyword3" als String finden, egal wie die einzeln Keywords im Quelltext formatiert sind.

Anderes Beispiel, gerade getestet:

<strong><big>P</big>artnerschaften</strong>

Erkennt Google problemlos als zusammenhängendes Wort Partnerschaften, obwohl durch Tags unterbrochen. Meiner Meinung nach entfernt Google alle Tags und alle Styles aus einem Text und vergleicht nur den nackten Text.

Hat aber erst einmal nichts mit dem Bot zu tun, denn der liest ja erst einmal die Seite nur ein. Ist mehr eine Frage der Aufbereitung. Du hast doch schon Bots programmiert, für die Anzeige der Treffer wirfst Du doch da auch alles <von bis> heraus und gibst nur das aus, was keine spitzen Klammern mehr enthält bzw. gibst nur das aus, was sich als Value >zwischen spitzen Klammern< befindet und eliminierst den Rest.

Also ich sehe das so, der Bot ruft die URI auf, lädt die Seite, speichert die ab. Das ist das, was dann als Cache abgerufen werden kann. In einem zweiten Arbeitsschritt wird die Seite dann ausgewertet, wobei Titel, h1 usw. eine entsprechende Flag erhalten, gleichzeitig werden alle Tags und Styles entfernt. In der DB liegt dann nur noch:

Code: Alles auswählen

          Value              Flag  

keyword1 keyword2 keyword3    H1

Und ein paar Felder und Flags mehr, die fürs Ranking wichtig sind (vielleicht auch 200 oder eine binäre Summe aus 200 Flags für die Page, aus der sich gleich eine Position fürs Ranking ableiten lässt. Die Seite mit der höchsten oder niedrigsten Summe wird dann am höchsten oder niedrigsten gelistet.), alles andere ist weg, wird entfernt aus Titeln und Text. Es dauert ein paar Millisekunden, bis Google aus einigen Milliarden Webseiten die Ergebnisse bei einer Suchanfrage liefert, das wäre nicht möglich, wenn sich Google bei jeder Suchanfrage noch durch ein paar Milliarden formatierter Texte zu kämpfen hätte. In irgendeiner Form werden die als Daten aufbereitet.

Beitrag von **sup** » 04.05.2013, 23:11

Ich glaub google striped die Tags innerhalb von H1 etc, zumindest die Tags die mit Text zu tun haben.

Beitrag von **Melegrian** » 05.05.2013, 05:28

Zumindest für den eigentlichen Suchvorgang, vermute ich mal. Weil, wenn jemand ABC eintippt, auf Maschinenebene die Suche nach 010000010100001001000011 beginnt. Falls die Leserichtung dabei von links nach rechts erfolgen sollte,
0
01
010
0100
würde ein Vergleich ziemlich zügig gehen, da es ja immer nur zwei Möglichkeiten fürs nächste Bit geben kann. Tags dazwischen, egal ob sinnvoll im Text oder nicht, würden meiner Meinung nach einen Vergleich nur behindern.

Gut, etwas komplizierter ist die Suche schon, es werden ja auch Synonyme usw. berücksichtigt, die sich nicht aus einem einfachen Bit-Vergleich ergeben würden. Doch da würden ja dann, wie von einigen vermutet, diese Shingles interessant, die unterschiedliche Schreibweisen enthalten könnten:

https://en.wikipedia.org/wiki/W-shingling

Um es herauszufinden, ob Tags gestript werden oder nicht, sollte es jedoch genügen, einfach mal nach einigen Abschnitten im Quellcode zu suchen, Abschnitte, in denen zum Beispiel ein Wort farbig formatiert wurde und dann nach dem erweiterten Abschnitt mit Anführungszeichen bei Google zu suchen. Und mehr wollte ich nicht mit dem ersten und zweiten Beispiel.

Beitrag von **Kristian** » 07.05.2013, 12:34

Hallo,

Melegrian hat geschrieben: Hat aber erst einmal nichts mit dem Bot zu tun, denn der liest ja erst einmal die Seite nur ein. Ist mehr eine Frage der Aufbereitung.

Ja, richtig, streichen wir den Bot, nennen wir das Ding Parser, denn das macht dieser Programmteil, er parst HTML und gibt die einzelnen Elemente an eine DB weiter.

Dein Ansatz:

Melegrian hat geschrieben:
Code: Alles auswählen
          Value              Flag  

keyword1 keyword2 keyword3    H1

ist glaube ich ganz gut.

Sagen wir mal sowas käme raus:

Code: Alles auswählen

      value                     flag                        valuation
keyword1                          h1                          100
keyword2                          h2                          70
keyword3                          h3                          50
keyword4                       strong                         10
keyword5                          p                            5

jetzt haben wir

Code: Alles auswählen

<h1><strong>keyword1</strong></h1>

Was gibt das dann?

Code: Alles auswählen

      value                      flag                      valuation
keyword1                      h1 | strong                     ???

Noch schlimmer wird es bei Links, die zählen nach meinem Verständnis für die verlinkte Seite:

Code: Alles auswählen

<h1><a href="/page2.html">keyword1</a></h1>

Wie soll man das bewerten und für welche Seite?
W3C ist hier auch keine Hilfe da Links in Überschriften konform sind.

Gruß
Kristian

Beitrag von **Melegrian** » 07.05.2013, 16:34

Ich habe mich damit bisher noch nicht tiefgehender beschäftigt (für meine Suche in Dokumenten genügten bislang stripos und RegEx-Lösungen), doch wenn ich nun unter Google bei Software lese

In der zentralen Anwendung, dem Aufbau des Dokumenten-Indexes für die Suchmaschine selbst, sind 24 Instanzen von MapReduce hintereinander geschaltet.

https://de.wikipedia.org/wiki/Google#Ar ... ogle-Suche

und mir danach die "Beispielhafte Berechnung" mit MapReduce ansehe,

https://de.wikipedia.org/wiki/MapReduce

dann denke ich, dass ich mir das erst mehrmals in Ruhe durchlesen sollte, um eine halbwegs vernünftige Antwort geben zu können. So ein ganz klein wenig Ähnlichkeit besitzt es aber bereits mit dem, was ich mir bislang so vorstellte, jedoch nur ein ganz klein wenig.

Beitrag von **mtx93** » 07.05.2013, 16:55

Ohne jetzt hier irgendwas zu werten - was schwer ist, weil es eine ganze Legion von Gegenargumenten gibt...

Gibt es eine Sache, die Einleuchten sollte:

Wenn ihr diesen Weg des, nenen wir es mal, "kreativen SEOs" geht, steigt mit jeder dieser "Ideen" die Gefahr, das ihr irgendwann mal in einen Filter von Google rennt.

Im Klartext, die Chance liegt irgendwann bei 100%, das ihr mit solchen Tricks und Ideen einen der wirklich harten Überoptimierungsfilter von Google trefft.

Es ist eigentlich nicht die Frage ob, sondern wann.

Da Google die Art, wie ein Malus wirkt, verändert hat, reicht dieser eine Trigger aus, eure Seite langsam aber sicher ins Nirvana zu ranken.

Wie wollt ihr dann rausfinden, was es ist?

Will heißen, irgendwann haut ein solcher Malus rein, ihr geht runter und es ist eigentlich nicht mehr möglich zu sehen, welcher dieser kleinen Tricks der entscheidene war.

Am Ende bleibt dann meistens nur noch der volle Neuaufbau, mit allen negativen Folgen.

Da die Zeiten vorbei sind, wo solche kleinen Tricks einen wirklich sichtbaren Effekt nach oben hatten, lohnen sie sich einfach nicht mehr.

Beitrag von **Melegrian** » 07.05.2013, 17:10

Ja, ich würde darauf auch nicht bauen. Ist eher so von der allgemeinen Seite betrachtet und nicht um irgendwelche Schlüsse auf einen Algo zu ziehen, der ohnehin ständig angepasst wird.

Nach dem ersten Lesen ist das nicht viel mehr im Beispiel, als was man mit array_count_values auch noch fertig bekommen würde. Das kann es noch nicht sein, zumal bei einem einfachen Suchvorgang die Stoppwörter auch noch rausfliegen würden. Von einem richtigen Algo ist das Beispiel noch sehr weit entfernt.

So weit, so gut, je mehr ich lese, bereitet Google wohl wirklich die Daten mit MapReduce auf, doch das betrifft ja nur die Aufarbeitung und noch nicht mehr. Hier mal ein Überblick:

https://dbs.uni-leipzig.de/file/seminar ... %B6nig.pdf

Beitrag von **Kristian** » 08.05.2013, 13:03

Hallo,

ihr geht da weiter als mein Anliegen oder sagen wir meine Intuition des Posts das rechtfertigen würde.
Ich schreibe gerade, in Zukunft nebenher, an einem "Webdesign / SEO Check", da trat die Frage auf.
Da ich den Leuten nichts falsches raten will, wollte ich meine Ansicht(en) hier hinterfragen.
Den Algo ergründen, Gott bewahre, ein SEO-Wundermittel entdecken, oje oje, das sollte durch sein.
Nööö, ich bin für sauberes HTML und frage mich in wie weit ich meckern darf, wenn es nicht so ist.

Gruß
Kristian

Beitrag von **mtx93** » 08.05.2013, 15:41

Dann habe ich dich Falsch verstanden...

Grundsätzlich aber denke ich, das man vorsichtig sein sollte.

Hier ist Google mM nach nicht Ehrlich. Google sucht nach solchen "Mustern", um Spamer zu erkennen.

Wer sich ein wenig auskennt weiß, das sowas automatisch ohne eine gewisse Fehlerrate nicht möglich ist.

In unseren Fall ist es eben so, das keiner weiß ob Spielereien im H Tag von Google gesuchte Muster sind oder nicht. DAS sie welche suchen, ist sicher.

Danach kommen wir zu hier schon besprochenen Punkt: Keiner weiß, ob sowas nicht morgen auf der Agenda von Spamer vs. Google steht. Dann ist es morgen ein Muster.

Ich bin mittlerweile Konservativ zu all den SEO "Hauptmerkmalen" wie Title tag, H tags, etc. Da kann man heute mehr verlieren als gewinnen.

Beitrag von **nerd** » 11.05.2013, 03:54

Kristian hat geschrieben: Ich verbiete - als Seo - Google, in meine CSS zu schauen, damit er nicht sieht, wie groß meine H[1-3] sind, weil ich glaube, dass er das wertet.

Au weia. Sperr mal sicherheitshalber auch nich deine html dateien und bilder; ich glaube dass google das auch wertet ...