Google Bot zu anhänglich ? erzeugt 20GB am Tag

Beitrag von **stgtklaus** » 04.08.2010, 07:34

Seit 1.8. ist der Google Bot mein größter Besucher. Statt der üblichen 70GB im Monat macht mein Server 20 GB am Tag.
Ich habe zwar viele Seiten zum ansehen, aber es sieht so aus als würde der Bot jede einzelne dauernd laden.

Nachdem ich in den robot,txt Google verboten habe, ist wieder alles normal. Aber das sollte ja nicht sein - ohne Google sieht es schlecht aus.

Die Webmastertools zeigen "normale" Besuchsmengen an.

Kennt das jemand.

Clausi

von **Anzeige von ABAKUS** »

Hochwertiger Linkaufbau bei ABAKUS:

Google-konformer Linkaufbau
nachhaltiges Ranking
Linkbuilding Angebote zu fairen Preisen
internationale Backlinks

Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Beitrag von **stgtklaus** » 04.08.2010, 08:27

Google Webmastertool hat heute gemeldet das er "eine extrem hohe Anzahl von URLs entdeckt."
Dabei hat er die Seiten auch gleich selbst erfunden indem er Unsinn an Dateinamen hängt wie "xxx.php?seite=cdzledzispnh".
Es sind 30-40 solcher Seiten azufgelistet.

Ich vermute mal das ist der Traffik ! Kennt das jemand - was wäre die Lösung ? Kein PHP mehr verwenden ?

Clausi

Beitrag von **Synonym** » 04.08.2010, 08:32

Die Lösung wäre in dem Fall, dass Du entsprechend der Seiten eben einen Status 200 oder eben 404 sendest, wenn es die nicht gibt. So wie sich das bei Dir anhört werden alle Seiten mit erfolgreich beantwortet und das soll so nicht sein, steht aber auch in der Google-Hilfe.

Ist aber nur meine Meinung dazu

Dabei hat er die Seiten auch gleich selbst erfunden indem er Unsinn an Dateinamen hängt wie

Das glaube ich nicht. Wäre mir neu dass Google so was macht, also müsste die Seite irgend wo anderes so verlinkt / aufgerufen worden sein. Gefährlich wird es dann auch noch, wenn das System (gibt es durchaus) die falschen Parameter auch noch an die anderen Unterseiten weitergibt.

von **Anzeige von ABAKUS** »

Beitrag von **stgtklaus** » 04.08.2010, 08:50

Wie fang ich denn den Mist ab.

https://www.abakus-internet-marketing.d ... d=asdasdas

wird auch beantwortet da das PHP Script mit der Variable "dasdasad" nicht anzufangen weiß.

Kann ja nicht:

If (GET[was auch immer]) gibt Error 404 aus schreiben.

Wie finde ich raus woher Google die sinnlosen Parameter hat. Müsste ja irgendwo Links auf diese Seiten mit den falschen Parametern vorhanden sein.

Da könnte man ja mit ein paar Links ins Nirvana, viele Server platt machen.

Clausi

Beitrag von **bugscout** » 04.08.2010, 08:54

Hi,

es gibt ne Menge Hobbyprogrammierung, die so Sachen, die an der Index.php dranhängen, nicht abfangen.

Hatte mal ein CMS da hing immer was mit ?iframe=true&......... hinten dran, das musste ich von Hand per .htaccess rausfiltern.

Joomla ist z.B. einer dieser Kandidaten, die erstmal alles annehmen und dann im günstigsten Fall "Sie haben keine Berechtigung, die Seite aufzurufen" zurückgibt. Im ungünstigen Fall wird alles angezeigt, was reinkommt.

Wenn es seite= nicht gibt, machst du

RewriteCond %{QUERY_STRING} .*seite=.* [OR]

Kann ja nicht:
If (GET[was auch immer]) gibt Error 404 aus schreiben.

weshalb nicht?

Wenn du die URL aufsplittest und seite= rausfilterst sollte auch das gehen.

Wie finde ich raus woher Google die sinnlosen Parameter hat

Die letzten Geheimnisse dieser Welt liegen in den Logfiles und in der DNS

Grüsse

Beitrag von **Synonym** » 04.08.2010, 09:50

Jep, entweder so wie bugscout sagte, was aber Probleme macht, wenn sich die Parameter mal ändern, oder eben über das PHP-Script abfangen.

Das ist so natürlich unbrauchbar:
If (GET[was auch immer]) gibt Error 404 aus schreiben.
Sinn ist ja nicht, einzelne Fehler abzufangen, sondern überhaupt nur gültige durch zu lassen.

So wird aber ein Schuh draus
If (die Seite gibt es)
{
ausführen
}
else
{
gibt Error 404 aus
}

Also nicht prüfen, ob die URL falsch ist, sondern ob sie richtig ist!

Somit musst Du nur wissen was es geben darf / kann und nicht was es nicht gibt. Und was es geben kann / darf sollte eigentlich jeder wissen, der ein System online betreibt.

@Bugscout
Bei "RewriteCond %{QUERY_STRING} .*seite=.* [OR] " kannst Du die .* weg lassen, das macht die Cond schon per default.

Beitrag von **stgtklaus** » 04.08.2010, 10:03

Ich frage mich immer noch warum der Googlebot Seiten durchsucht und sich die nötigen Parameter einfach selber ausdenkt.

https://www.abakus-internet-marketing.d ... d=asdasdas

Gibt ja auch eine Seite aus. Was ist wenn nun der Bot den ganzen Tag sinnlose Variationen ausliest, wie bei mir.
Dafür muss es doch nen Grund geben. Hatte er vor dem 1.8 auch bei mir nie versucht. Auf anderen Seiten bei mir macht er das auch nicht.....

>Die letzten Geheimnisse dieser Welt liegen in den Logfiles und in der DNS >
Na in den Logfiles ist es der Googlebot, der das in seinen Webmastertools ja auch als Problem nennt. In meinen Logfiles kann ich ja nicht sehen was den Bot so ärgert.

Clausi

Beitrag von **chris21** » 04.08.2010, 10:11

Setzt Du thickbox, lightbox oder ähnliches ein?

Vll. findest Du hier einen weiteren Hinweis wo Google solche Links herbekommt:

https://www.abakus-internet-marketing.d ... t=keepthis

Darauf scheint auch bugscout zu verweisen.

Beitrag von **Synonym** » 04.08.2010, 10:21

@stgtklaus
Nenne doch mal die betroffene Seite, damit man sich das ansehen kann.

Ansonsten, Google denkt sich so etwas nicht aus, andere Sumas aber durchaus schon. Wobei, das auch eher selten. Solche Probleme kommen in aller Regel von irgendwelchen schlechten Scripten (Grapper, Backlinkspider, Sitemapgeneratoren, SEO-Analysen und weiß der Geier was noch alles). Da werden Verzeichnisse angehängt, Dateinamen versucht, Parameter übergeben, ob aus Absicht oder nicht ist dabei egal.

Diese Links können irgendwo auf einer Webseite stehen, gibt ja genug, wo so was zu finden ist. Yahoo hat auch gerne mal falsche URLs im Index und wenn der dann irgendwo als "Content" eingebunden ist, dann spidert Google die auch. Schon hat er sie und muss sie nicht "selbst erfinden".

Ist Adsense auf der Seite, dann geht es noch schneller. Wird Adsense erst mal von einer "neuen" Seite aufgerufen, dann steht der Bot auch schon in der Warteschlange und will die Seite haben. Und wieder, Google hat die Seite und eben nicht "frei erfunden".

Und mal zu Deiner genannten Abakus-URL. Die wird meiner Meinung nach auch nicht sauber abgefangen, aber sie wird es zumindest. Per robots.txt

Disallow: /foren/*?

So hagelt es in den WMT aber auch Fehlermeldungen / Hinweise, dass der Zugriff über robots.txt gesperrt wurde.

Ein schönes Beispiel habe ich aber auch noch. Ich hatte über Wochen hinweg einen Spider (bzw. viele verschiedene) auf meiner Domain, der alle (fast 100.000) Unterseiten abgefragt hat und das immer mit dem Anhang ?seite=impressum . Google war da auch gleich da und hat brav mitgemacht. Aber der Unterschied, die Seiten wurden mit 404 beantwortet.

Beitrag von **stgtklaus** » 04.08.2010, 10:35

Leider ist die Seite schon weg. Sie gibt jetzt immer 404 aus wenn es falsch ist.
Ich lese mich mal in den Lightboxfehler ein, denn das nutze ich auch.

Danke für die Tips bisher.

Gibts irgendein geeignetes Tool die Logfiles nach Googlebot zu sortieren. Ich hatte echt Probleme das zu finden.

Clausi