Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Hijacking und dadurch DC immer noch ein Problem, oje... ;)

Dieses Forum ist für Informationen über Google gedacht (Ausser PageRank!).
Dusti
PostRank 1
PostRank 1
Beiträge: 25
Registriert: 29.08.2005, 06:46

Beitrag von Dusti » 26.10.2005, 23:28

kommen nicht mehrere Googlebots gleichzeitig, da dies ein Multiprozessing des Server voraussetzen würde.
Es ist ein Multiserversystem, und die Arbeit wird zwischen den Servern aufgeteilt. Ich vermute auch dass die einzelnen Rechner Multiprozessing betreiben, da Google sonst eine Menge Zeit verplempern würde um auf das Übertragen von Seiten zu warten. Bis die Telegramm von Google zu dem jeweilgen Server übertragen sind und die Antworten kommen vergehen einige Millisekunden (meisstens doch im Zehnerbereich.... quasi die Ping-Zeit halt). Manche Webseiten brauchen noch länger um zu antworten (z.B. dynamische, bis sie aufgebaut sind), und manche Seiten antworten erst gar nicht. Und ein paar Millisekunden sind für eine CPU sehr viel Zeit :)
Wenn Google kein Multiprozessing benutzen würde, dann würden sie verdammt viel Zeit für nix verplempern die sie für das Crawlen benutzen könnten.

Aber selbst wenn man das mal ausser acht lässt, ist es ein Multiserversystem und die Arbeit wird unter den Servern aufgeteilt.

Bei mir kann ich oft den Effekt beobachten, dass mehrere Crawler mit unterschiedlichen IPs gleichzeitig da sind, wobei sich jeder Crawler gerade was anderes "ansieht".
Mit "gleichzeitig" meine ich: Crawler A liesst Seite x, Crawler B Seite y, Crawler A Seite z usw usw usw.
Die scheinen sich die Arbeit also schön aufzuteilen und (sinnvollerweise) darauf zu achten, dass sie nicht unnötigerweise Sachen mehrfach lesen. Wozu soll Crawler A Seite y lesen, wenn Crawler B das macht? Würde ja nur unnötigen Traffik kosten, und es würden sich mehrere Rechner bei Google mit derselben Seite beschäftigen, obwohl die genug anderes pro Tag noch zu crawlen haben :)

Kommt bei Dir wirklich immer nur ein einziger Crawl-Bot? Auch wenn Google ab und zu mal seinen scheinbaren Update-Rappel bekommt? Bei mir kommen die Crawler (mit versch. IPs) dann immer wie scheinbar abgesprochen in Rudeln.


Statt auf sich selber zu verlinken, schicke ich ihn einfach ins Impressum. Idealerweise findet er von dort natürlich selber wieder zurück zur Startseite. Somit wäre es keine Botverarschung sondern eine ganz normale 301er Umleitung. Der Bot denkt dann nicht "Startseite existiert nicht mehr da 301 aufs Impressum", sondern er findet (über DIESEN LINK) die Startseite gar nicht, sondern der Link geht für den Bot (da über htaccess gesteuert) direkt ins Impressum. Und da er per 301 dort hingeleitet wird, gehört die Seite ab da wieder mir.
Hmm, ich denke ich verstehe was Du meinst. Aber meiner Meinung nach vergleichst Du die Crawler zu sehr mit normalen Surfern, die ja wirklich über Links die sie finden durch die Seite navigieren.
Google hat aber eine ganz andere Zeilsetzung und macht es etwas anders (ich weiss, gewaagte Behauptung von mir ohne Beweis :) ).
Die Crawler können nicht wild die Links besuchen die sie auf den Seiten finden. Würde auch keinen Sinn machen. Alleine hier im Forum z.B. könnten die sich dann ewig aufhalten. Überall findest Du hier Links die z.B. wieder auf die Startseite des Forums führen, von dort wieder runter, von dort wieder hoch, usw usw.
Schlauer wäre es doch, jede Seite nur einmal zu besuchen. Alles andere wäre Traffik- und Rechenzeitverschwndung, und jeder Webmaster würde sich auch beschweren wenn seine Seiten unnötigerweise mehrfach gecrawled werden.

Und genau das scheit Google auch zu machen: Jeder Link der gefunden wird, wird in eine (mal platt ausgedrückt) Liste aufgenommen. Und diese Liste wird von den Crawlern abgearbeitet. So werden alle bekannten Links gecrawled, ohne dass auch nur eine Seite dazu mehrfach gelesen werden muss.
Ansonsten wäre Google wahrscheinlich Jahre beschäftigt und würde kaum vorwärts kommen, wenn es jedem Link direkt einfach so "folgt".

Genau dann aber würde Dein Umleitungstrick nicht funktionieren: Wenn Google die betreffende Seite einmal gelesen hat und den 301er bekam, dann hat er die Seite gelesen, kennt sie, und fertig. Erst wenn er wieder das Bedürfnis hat nachzuschauen ob es auf Deinen Seiten was neues gibt, dann würde er sich diese Seite wieder neu anschauen, wobei die Zeit bis er sie weider besucht vermutlich von von PR, LP, DP und was-weiss-ich-für-Faktoren abhängt.
Was passiert dann? Dann hast Du entweder Dein Flag/Variable schon auf einen anderen Crawler derweil angewendet und schickst wieder einen 301er, oder diesmal bekommt er die richtige Seite, hat aber nach wie vor nochgespeichert, dass es irgendwo einen bösen 302er genau auf diese Seite gibt, und der 301er zählt nichtmehr, da die 301er-Seite ja nun durch eine andere Seite (Deine Richtige) ersetzt wurde.


Puuh, und das um die Zeit....

Aber auch wenn ich bezweifele dass der Ansatz funktioniert, bin ich natürlich neugierig was dabei rauskommt falls Du das ausprobieren solltest. Neue Erkentnisse über Google sind immer interessant :)
Wenn Du das also wirklich Testen solltest und in irgendeiner Form dazu Unterstützung brauchen kannst (Link zu Deiner Testseite o.Ä.) helfe ich gerne.

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Margin
PostRank 10
PostRank 10
Beiträge: 4646
Registriert: 09.09.2005, 08:25

Beitrag von Margin » 27.10.2005, 08:11

"Ich bekenne mich schuldig ..." :oops:
oder wie auch immer ...

Nun gehöre ich auch zu den Klauern und weiß nicht mal wirklich wie oder warum, da in Bezug auf die externen Verlinkungen sich "ewig" nix geändert hat :roll:

Folgendes System:
Einige externe Links einer Seite (z.Z. 54 Stck.) liegen in einer Datenbank und werden mit ID in einer .php (noindex, nofollow) ausgegeben auf die dann von der eigentlichen Seite aus verlinkt wird.
(Ich hoffe es ist so halbwegs verständlich.)

Von diesen 54 Links sind nun 8 Seiten gehijacked ...

Mal ganz davon abgesehen, dass ich noch nicht wirklich weiß, was ich diesbezüglich nun unternehmen soll, geht mir dieser Salat gewaltig auf den Keks.

Also, wenn es eine Möglichkeit gibt, bei der Lösung (Vermeidung selber gekapert zu werden) zu helfen ... ich bin dabei!


Gruß Margin

AnjaK
PostRank 9
PostRank 9
Beiträge: 2614
Registriert: 11.10.2004, 10:29
Wohnort: Riddermark

Beitrag von AnjaK » 27.10.2005, 15:02

<< Hmm, ich denke ich verstehe was Du meinst. Aber meiner Meinung nach vergleichst Du die Crawler zu sehr mit normalen Surfern, die ja wirklich über Links die sie finden durch die Seite navigieren.

Das wäre denkbar, dass ich das zu sehr gleichsetze ja. Aber ich kann mir nicht vorstellen, dass der Bot sich viel anders verhält als ein Besucher. Er wird einen Link finden, diesen verfolgen, die Zielseite tag-bereinigt einlesen und speichern. Alles weitere und alles davor interessiert erstmal nicht an diesem Punkt. Der Knackpunkt ist, dass hier der Bot von einem Link gesagt bekommt: "Meine Seite findest du vorübergehend auf der Zielurl, aber nur vorübergehend, ist meine Seite, brauchst du nicht extra neu zuzuordnen". Und das macht der Spider dann ja auch wie wir glauben (daher auch der Hijacking-effekt). Bekommt er aber nun einen 301er wäre es unlogisch, wenn er den Link, von dem er kam in Zukunft noch anspringen würde, statt gleich die Seite anzuspringen. D.h. es müsste eigentlich reichen, wenn EINER der Crawler das 301er Signal bekommt und alle andere wissen dann "aha", der is umgezogen...

Das mehrere Bots auf deiner Seite sind ist nicht möglich, wie gesagt benötigt DEIN Server dazu Multiprozessing, (denn die Bots kommen ja auf DEINEN Rechner und rufen dort Daten ab) und das haben sicher nur die wenigstens grad mal so im Schrank stehn *g*
Es kann also im Regelfall immer nur ein Bot gleichzeitig deine Seite absurfen, der anderen ist dann um Mikrosekunden versetzt. Aber wie du schon sagtest, das wäre auch egal, denn wenn der 301er erstmal "eingespeißt" ist, sollte das eine "Kaskade" an die anderen Bots auslösen. Sozusagen eine quantenmechanische Verschränkung der Bots *gggg* (Hey, das wäre doch mal ne Erfindung!) ;)

Wenn von 100 Bots 99 gesagt bekommen "hey, meine Seite ist nur kurz woanders (302) und nur EINER bekommt gesagt "Meine Seite ist umgezogen zu X" dann müsste der Logik nach dem 301er Recht gegeben wären, weil er "eine Etage" höher sitzt in der Prioritätsliste (das postulier ich hier einfach mal so ;) )

Wenn mir 99 Leute sagen "Herr Maier besucht grad Frau Müller" und einer sagte "Herr Maier wohnt jetzt bei Frau Müller", dann sagt mir mein gesunder Menschenverstand, dass es die Möglichkeit gibt, dass Herr Meier umgezogen ist. Ok, Herr Maier wird vielleicht nur auf ein Stößerchen bei Frau Müller zu Besuch sein, das sagt mir mein Bauchhirn, aber der Bot hat sowas nicht. Er sagt "einer sagt umgezogen 99 sagen nurz kurz weg". Die Wahrscheinlichkeit eines Umzuges liegt NICHT bei NULL, also schauen die anderen NOCHMAL nach. Und das geht vielleicht solange, bis sich die Bots einig sind. (hey, coole Bottrap *gggggg*). Und da alle Bots eine andere IP haben, bekommt auch jeder brav seinen 301er bis alle 100 sagen "jo Mann, der is umgezogen".

Ok, ich geb zu das geht langsam in Richtung "Spökenkiekerei", aber mit klarem Denken kommt man ja zu nix :D
Penisneid hat einen Namen: WebLiga | Los! Artikel schreiben! | Onlineshop hier anmelden! | Staatl. geprüfte Boardbösewichtin | Keine PNs bitte, bitte nur email.