Hijacking und dadurch DC immer noch ein Problem, oje... ;)

Beitrag von **Dusti** » 26.10.2005, 23:28

kommen nicht mehrere Googlebots gleichzeitig, da dies ein Multiprozessing des Server voraussetzen würde.

Es ist ein Multiserversystem, und die Arbeit wird zwischen den Servern aufgeteilt. Ich vermute auch dass die einzelnen Rechner Multiprozessing betreiben, da Google sonst eine Menge Zeit verplempern würde um auf das Übertragen von Seiten zu warten. Bis die Telegramm von Google zu dem jeweilgen Server übertragen sind und die Antworten kommen vergehen einige Millisekunden (meisstens doch im Zehnerbereich.... quasi die Ping-Zeit halt). Manche Webseiten brauchen noch länger um zu antworten (z.B. dynamische, bis sie aufgebaut sind), und manche Seiten antworten erst gar nicht. Und ein paar Millisekunden sind für eine CPU sehr viel Zeit

Wenn Google kein Multiprozessing benutzen würde, dann würden sie verdammt viel Zeit für nix verplempern die sie für das Crawlen benutzen könnten.

Aber selbst wenn man das mal ausser acht lässt, ist es ein Multiserversystem und die Arbeit wird unter den Servern aufgeteilt.

Bei mir kann ich oft den Effekt beobachten, dass mehrere Crawler mit unterschiedlichen IPs gleichzeitig da sind, wobei sich jeder Crawler gerade was anderes "ansieht".
Mit "gleichzeitig" meine ich: Crawler A liesst Seite x, Crawler B Seite y, Crawler A Seite z usw usw usw.
Die scheinen sich die Arbeit also schön aufzuteilen und (sinnvollerweise) darauf zu achten, dass sie nicht unnötigerweise Sachen mehrfach lesen. Wozu soll Crawler A Seite y lesen, wenn Crawler B das macht? Würde ja nur unnötigen Traffik kosten, und es würden sich mehrere Rechner bei Google mit derselben Seite beschäftigen, obwohl die genug anderes pro Tag noch zu crawlen haben

Kommt bei Dir wirklich immer nur ein einziger Crawl-Bot? Auch wenn Google ab und zu mal seinen scheinbaren Update-Rappel bekommt? Bei mir kommen die Crawler (mit versch. IPs) dann immer wie scheinbar abgesprochen in Rudeln.

Statt auf sich selber zu verlinken, schicke ich ihn einfach ins Impressum. Idealerweise findet er von dort natürlich selber wieder zurück zur Startseite. Somit wäre es keine Botverarschung sondern eine ganz normale 301er Umleitung. Der Bot denkt dann nicht "Startseite existiert nicht mehr da 301 aufs Impressum", sondern er findet (über DIESEN LINK) die Startseite gar nicht, sondern der Link geht für den Bot (da über htaccess gesteuert) direkt ins Impressum. Und da er per 301 dort hingeleitet wird, gehört die Seite ab da wieder mir.

Hmm, ich denke ich verstehe was Du meinst. Aber meiner Meinung nach vergleichst Du die Crawler zu sehr mit normalen Surfern, die ja wirklich über Links die sie finden durch die Seite navigieren.
Google hat aber eine ganz andere Zeilsetzung und macht es etwas anders (ich weiss, gewaagte Behauptung von mir ohne Beweis

).
Die Crawler können nicht wild die Links besuchen die sie auf den Seiten finden. Würde auch keinen Sinn machen. Alleine hier im Forum z.B. könnten die sich dann ewig aufhalten. Überall findest Du hier Links die z.B. wieder auf die Startseite des Forums führen, von dort wieder runter, von dort wieder hoch, usw usw.
Schlauer wäre es doch, jede Seite nur einmal zu besuchen. Alles andere wäre Traffik- und Rechenzeitverschwndung, und jeder Webmaster würde sich auch beschweren wenn seine Seiten unnötigerweise mehrfach gecrawled werden.

Und genau das scheit Google auch zu machen: Jeder Link der gefunden wird, wird in eine (mal platt ausgedrückt) Liste aufgenommen. Und diese Liste wird von den Crawlern abgearbeitet. So werden alle bekannten Links gecrawled, ohne dass auch nur eine Seite dazu mehrfach gelesen werden muss.
Ansonsten wäre Google wahrscheinlich Jahre beschäftigt und würde kaum vorwärts kommen, wenn es jedem Link direkt einfach so "folgt".

Genau dann aber würde Dein Umleitungstrick nicht funktionieren: Wenn Google die betreffende Seite einmal gelesen hat und den 301er bekam, dann hat er die Seite gelesen, kennt sie, und fertig. Erst wenn er wieder das Bedürfnis hat nachzuschauen ob es auf Deinen Seiten was neues gibt, dann würde er sich diese Seite wieder neu anschauen, wobei die Zeit bis er sie weider besucht vermutlich von von PR, LP, DP und was-weiss-ich-für-Faktoren abhängt.
Was passiert dann? Dann hast Du entweder Dein Flag/Variable schon auf einen anderen Crawler derweil angewendet und schickst wieder einen 301er, oder diesmal bekommt er die richtige Seite, hat aber nach wie vor nochgespeichert, dass es irgendwo einen bösen 302er genau auf diese Seite gibt, und der 301er zählt nichtmehr, da die 301er-Seite ja nun durch eine andere Seite (Deine Richtige) ersetzt wurde.

Puuh, und das um die Zeit....

Aber auch wenn ich bezweifele dass der Ansatz funktioniert, bin ich natürlich neugierig was dabei rauskommt falls Du das ausprobieren solltest. Neue Erkentnisse über Google sind immer interessant

Wenn Du das also wirklich Testen solltest und in irgendeiner Form dazu Unterstützung brauchen kannst (Link zu Deiner Testseite o.Ä.) helfe ich gerne.

von **Anzeige von ABAKUS** »

Beitrag von **Margin** » 27.10.2005, 08:11

"Ich bekenne mich schuldig ..."

oder wie auch immer ...

Nun gehöre ich auch zu den Klauern und weiß nicht mal wirklich wie oder warum, da in Bezug auf die externen Verlinkungen sich "ewig" nix geändert hat

Folgendes System:
Einige externe Links einer Seite (z.Z. 54 Stck.) liegen in einer Datenbank und werden mit ID in einer .php (noindex, nofollow) ausgegeben auf die dann von der eigentlichen Seite aus verlinkt wird.
(Ich hoffe es ist so halbwegs verständlich.)

Von diesen 54 Links sind nun 8 Seiten gehijacked ...

Mal ganz davon abgesehen, dass ich noch nicht wirklich weiß, was ich diesbezüglich nun unternehmen soll, geht mir dieser Salat gewaltig auf den Keks.

Also, wenn es eine Möglichkeit gibt, bei der Lösung (Vermeidung selber gekapert zu werden) zu helfen ... ich bin dabei!

Gruß Margin

Beitrag von **AnjaK** » 27.10.2005, 15:02

<< Hmm, ich denke ich verstehe was Du meinst. Aber meiner Meinung nach vergleichst Du die Crawler zu sehr mit normalen Surfern, die ja wirklich über Links die sie finden durch die Seite navigieren.

Das wäre denkbar, dass ich das zu sehr gleichsetze ja. Aber ich kann mir nicht vorstellen, dass der Bot sich viel anders verhält als ein Besucher. Er wird einen Link finden, diesen verfolgen, die Zielseite tag-bereinigt einlesen und speichern. Alles weitere und alles davor interessiert erstmal nicht an diesem Punkt. Der Knackpunkt ist, dass hier der Bot von einem Link gesagt bekommt: "Meine Seite findest du vorübergehend auf der Zielurl, aber nur vorübergehend, ist meine Seite, brauchst du nicht extra neu zuzuordnen". Und das macht der Spider dann ja auch wie wir glauben (daher auch der Hijacking-effekt). Bekommt er aber nun einen 301er wäre es unlogisch, wenn er den Link, von dem er kam in Zukunft noch anspringen würde, statt gleich die Seite anzuspringen. D.h. es müsste eigentlich reichen, wenn EINER der Crawler das 301er Signal bekommt und alle andere wissen dann "aha", der is umgezogen...

Das mehrere Bots auf deiner Seite sind ist nicht möglich, wie gesagt benötigt DEIN Server dazu Multiprozessing, (denn die Bots kommen ja auf DEINEN Rechner und rufen dort Daten ab) und das haben sicher nur die wenigstens grad mal so im Schrank stehn *g*
Es kann also im Regelfall immer nur ein Bot gleichzeitig deine Seite absurfen, der anderen ist dann um Mikrosekunden versetzt. Aber wie du schon sagtest, das wäre auch egal, denn wenn der 301er erstmal "eingespeißt" ist, sollte das eine "Kaskade" an die anderen Bots auslösen. Sozusagen eine quantenmechanische Verschränkung der Bots *gggg* (Hey, das wäre doch mal ne Erfindung!)

Wenn von 100 Bots 99 gesagt bekommen "hey, meine Seite ist nur kurz woanders (302) und nur EINER bekommt gesagt "Meine Seite ist umgezogen zu X" dann müsste der Logik nach dem 301er Recht gegeben wären, weil er "eine Etage" höher sitzt in der Prioritätsliste (das postulier ich hier einfach mal so

)

Wenn mir 99 Leute sagen "Herr Maier besucht grad Frau Müller" und einer sagte "Herr Maier wohnt jetzt bei Frau Müller", dann sagt mir mein gesunder Menschenverstand, dass es die Möglichkeit gibt, dass Herr Meier umgezogen ist. Ok, Herr Maier wird vielleicht nur auf ein Stößerchen bei Frau Müller zu Besuch sein, das sagt mir mein Bauchhirn, aber der Bot hat sowas nicht. Er sagt "einer sagt umgezogen 99 sagen nurz kurz weg". Die Wahrscheinlichkeit eines Umzuges liegt NICHT bei NULL, also schauen die anderen NOCHMAL nach. Und das geht vielleicht solange, bis sich die Bots einig sind. (hey, coole Bottrap *gggggg*). Und da alle Bots eine andere IP haben, bekommt auch jeder brav seinen 301er bis alle 100 sagen "jo Mann, der is umgezogen".

Ok, ich geb zu das geht langsam in Richtung "Spökenkiekerei", aber mit klarem Denken kommt man ja zu nix

von **Anzeige von ABAKUS** »

Beitrag von **Dusti** » 27.10.2005, 17:08

Aber ich kann mir nicht vorstellen, dass der Bot sich viel anders verhält als ein Besucher. Er wird einen Link finden, diesen verfolgen, die Zielseite tag-bereinigt einlesen und speichern.

Das mit der Art wie Google Links "verfolgt" scheinen wir schon anders zu sehen. Es macht ja keinen Sinn und wäre viel zu aufwendig, wenn er alle Links die er findet sofort "verfolgt". Dann käme er kaum vorwärts, würde sich ewig mit den selben Seiten aufhalten, und viel mehr Traffik und Resourcen als nötig verbraten.
Das würde dann auch Deiner Philosophie über den Weg des geringsten Widerstandes widersprechen

Das mehrere Bots auf deiner Seite sind ist nicht möglich, wie gesagt benötigt DEIN Server dazu Multiprozessing, (denn die Bots kommen ja auf DEINEN Rechner und rufen dort Daten ab) und das haben sicher nur die wenigstens grad mal so im Schrank stehn *g*
Es kann also im Regelfall immer nur ein Bot gleichzeitig deine Seite absurfen, der anderen ist dann um Mikrosekunden versetzt.

Es kann auch immer nur einen Logfile-Eintrag gleichzeitig geben, der nächste ist um Millisekunden versetzt

Hier scheinen wir aneinander vorbeizureden. Natürlich gibt es kein wirkliches "Gleichzeitig" in dem Sinne. Alleine schon deshalb nicht, weil der Server nur eine Leitung nach aussen hat und ein Telegramm nach dem anderen sendet

Was ich mit gleichzeitig meinte war: Crawler A ließt Seite 1, Crawler B (meinetwegen Millisekunden danach) Seite 2, dann (Millisekunden danach) ist Crawler A wieder dran und liesst Seite 3, und so weiter, immer abwechselnd, aber ohne das ein Crawler dasselbe liest wie einer seiner Crawler-Kollegen.
Das meinte ich mit mehrere Crawler lesen gleichzeitig eine Webpräsenz. Und das hätte die Konsequenzen die ich oben meinte.

Wenn von 100 Bots 99 gesagt bekommen "hey, meine Seite ist nur kurz woanders (302) und nur EINER bekommt gesagt "Meine Seite ist umgezogen zu X" dann müsste der Logik nach dem 301er Recht gegeben wären, weil er "eine Etage" höher sitzt in der Prioritätsliste (das postulier ich hier einfach mal so )

Ich bezweifele auch, dass die Bots demokratisch abstimmen

Ich vermute mal, dass der letzte Zustand einer Seite immer als der jeweils gültige zählt. Alles andere macht ja auch irgendwie keinen Sinn (zumindest sehe ich keinen).
Das was der Crawler der zuletzt auf einer Seite "sieht", zählt also nur.
Und beim letzten mal ist der 301er bei Dir immer weg

Ansonsten müsste es ja zwei gültige Zustände gleichzeitig für nur eine Seite geben, aber Dinge wie Schrödingers Katze lassen sich vermutlich nicht auf die Crawler anwenden (Naja, obwohl, vielleicht würde das so manche gegensätzlichen Zustände der versch. DC-Serps erklären)

Bei dem theoretischen Teil scheinen wir uns im Kreis zu drehen. Hast Du schon Pläne wann Du in die experimentelle Phase gehen willst?
Sind Zuschauer erlaubt?

Beitrag von **AnjaK** » 27.10.2005, 17:20

Ja, das ist ein Kreisgespräch *g*

Ich würde das schon gerne mal testen, das kann ich aber nicht alleine. Ich brauche jemand, der meine Domain hijacked mit einer stärkeren Domain und dann werde ich alle Besucher per 301 zurück auf die gleiche Seite leite, mal schaun, was passiert. Das letze mal als wir das testen wollten klappte das Hijacking nicht, scheinbar war die "gegnerische" Seite nicht stark genug.

Beitrag von **Dusti** » 31.10.2005, 22:01

Schade, da werde ich leider nicht helfen können, weil ich keine Domain habe die vermutlich PR-stark genug wäre.

Beitrag von **lrosen** » 01.11.2005, 08:15

Um Dein Konzept zu testen, brauchst Du kein sog. 'Hijacking' zu provozieren. Das folgende würde vollkommen ausreichen:

1- dom1.example.com/boesewicht -> 302 moved nach dom2.example.com/experiment
2- In dom2.example.com/experiment implementierst Du dann irgendeinen Content und Deine 301/200-Wechsellogik.
3- Zum Schluss verlinkst Du dom1.example.com/boesewicht von irgendwoher und wartest auf die robots.

Meine Prognose:
a- Zuerst kommt Googlebot auf dom1.example.com/boesewicht
b- Irgendwann später kommt er auf dom2.example.com/experiment und wird mit 301 beglückt.
c- Wahrscheinlich geht das a-b-a-b Spiel einige Male hin und her und evtl. kann Deine Logik sogar ab und zu eine 200 ausliefern.
Aber jetzt:
d- Aufgrund der Inkonsistenzen und der vielfachen Redirects schickt Googlebot seinen guten Freund Mozillabot vorbei.
e- Mozillabot räumt unter den Redirects auf und löscht beide Seiten aus der ToDo-Liste des Googlebot.
f- Googlebot kommt nicht mehr und im Endeffekt erleiden beide Seiten den sog. 'Slow Death'.