Seite 1 von 1
Spider 100%ig ausperren
Verfasst: 29.05.2006, 11:46
von Pretender
Moin Moin,
ich habe alles Spider aus einem Order "test" per robots.txt ausgesperrt. Außerdem haben alles Links die in diesen Ordner zeigen eine "nofollow" spendiert bekommen.
Trotzalledem wird im Google Index z.b. Seiten aus diesem Ordner angezeigt. Zwar nur die URL ohne Description etc. aber immerhin hat Google diese Links verfolgt und sich woghl offenbar nicht 100%ig an die Robots.txt gehalten.
Wie kann man dem Bot eine Fehlermeldung "Seite nicht gefunde" oder ähnliches vorsetzen. Ich neheme an das es per htaccess gehen sollte. Wie müsste diese dann ausehen?
Verfasst: 29.05.2006, 12:17
von marc75
hast du php?
Code: Alles auswählen
if(stristr($_SERVER['HTTP_USER_AGENT'], 'googlebot')) {
header("HTTP/1.0 404 Not Found");
echo 'Kein Zugriff';
exit();
}
.htaccess
Code: Alles auswählen
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^googlebot
RewriteRule !error403\.html
eventuell muss noch ein Status Code mitgesendet werden.
Re: Spider 100%ig ausperren
Verfasst: 29.05.2006, 12:59
von Christophe
Pretender hat geschrieben:Trotzalledem wird im Google Index z.b. Seiten aus diesem Ordner angezeigt
Das macht Google, solange es Links auf diese Seite gibt und sie nicht mit der URL-Console gelöscht worden ist.
Pretender hat geschrieben:... aber immerhin hat Google diese Links verfolgt...
Bist du dir da ganz sicher? Hast du einen entsprechenden Logfile-Eintrag?
Verfasst: 29.05.2006, 14:11
von Pretender
marc75 hat geschrieben:hast du php?
Code: Alles auswählen
if(stristr($_SERVER['HTTP_USER_AGENT'], 'googlebot')) {
header("HTTP/1.0 404 Not Found");
echo 'Kein Zugriff';
exit();
}
.htaccess
Code: Alles auswählen
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^googlebot
RewriteRule !error403\.html
eventuell muss noch ein Status Code mitgesendet werden.
Ja klar habe ich PHP aber so wie Du es schreibst, würde ich doch den Googlebot komplett ausperren. Er sollte aber nur den Ordner "test" nicht indexieren.
@Christophe
Ich habe im Moment keine Logiles aber ich gehe doch davon aus, wenn die URL`s im Google-Index auftauchen, daß Google Sie auch gespidert hat.
Was die URL-Console angeht, wäre das sicherlich eine Idee, den gesamten Ordner "test" zu löschen. Doch hat auch diese Möglichkeit bei einem anderem Problem (1,5 Jahre alte Seiten sollten gelöscht werden) auch erst nach mehrmaligen Anläufen und Monatelangem warten funktioniert.
Ich dachte im Grunde an eine Möglichkeit wie von marc75 die htaccess. Nur das es ebend nicht gleich die ganze Domo sperrt sondern n ur den Ordner. ka ob das geht....
Weiss jemand wie das geht und wenn ja könnte er/sie es mal ebend hier posten?
Verfasst: 29.05.2006, 14:28
von Pretender
Ich habe wohl etwas voreilig geantwortet!
Code: Alles auswählen
if(stristr($_SERVER['HTTP_USER_AGENT'], 'googlebot')) {
header("HTTP/1.0 404 Not Found");
echo 'Kein Zugriff';
exit();
}
sehe ich das richtig, ich binde das auf die Seiten ein die indexiert werden sollen und wenn der Googlebot diese Seite aufruft, dann bekommt er 404 Not Found vorgesetzt?
suuuuuuuuuuuuper
Kann man irgend wie die funktionalität testen?
Verfasst: 29.05.2006, 14:46
von net(t)worker
also...
1. wennn der googlebot eine URL nicht spidern darf aufgrund der robots.txt, er diese URL aber durch Links kennt, nimmt er sie auch in den index auf, eben ohne description... er spidert sie aber nicht... also wäre deine 404 Lösung unsinnig... andere Suchmaschinen handhaben es teilweise auch wohl so...
2. der googlebot hat kein "googlebot" mehr im UserAgent... der normale ist jetzt als "Netscape 6.0;" unterwegs und der googlebot für Adsense heist z.B. "Mediapartners-Google/2.1"...
also die Ip Adresse in den domainnamen auflösen und dort nach "googlebot" suchen.... aber wie gesagt, trotzdem wird es dir nichts bringen, da der googlebot aufgrund der sperrung in der robots.txt den 404 nie sehen wird...
Verfasst: 29.05.2006, 15:02
von Pretender
"Mozilla/5.0 (compatible; Googlebot/2.1; +
https://www.google.com/bot.html)
Gehört da nicht etwas zum UserAgent? Also diese Bot tobt bei mir auf den Domos rum.
Also meinste bringt das alles nix mit dem script und wenn ich den Ordner per robots.txt ausperre, dann
muss das reichen?
Verfasst: 29.05.2006, 15:38
von net(t)worker
den Mozilla/5.0 (compatible; Googlebot/2.1; +
https://www.google.com/bot.html) hab ich schon seit Wochen nicht mehr in der freien wildbahn gesehen...
nur noch den Netscape 6.0;
werf mal ein Blick in deine logfiles.... und falls er doch da ist überprüfe ob die IP wirklich zu google gehört...
und wie gesagt, er würde den 404 auch nie sehen, da durch robots.txt gesperrt... aber er kennt die URL's durch link auf anderen Seiten und nimmt diese daher ohne description auf....
Verfasst: 29.05.2006, 16:18
von Pretender
[29/May/2006:17:13:38 +0200] "GET /search/keywords-11200.html HTTP/1.1" 200 23078 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +
https://www.google.com/bot.html)"
also hier bei mir ist der alte noch voll aktiv. ich kann von einem neuen googlebot nix sehen

Verfasst: 29.05.2006, 16:47
von noppf
Hey,
ich habe das gleiche Problem wie der Pretender. Meine Seite ist auch mit PHP und ein Ordner sollte eingentlich nicht in Google gleistet sein (per robots.txt ausgespert). Jetzt ist die eine Seite aber leider 13 mal im Index (jedes mal mit einem anderem Parameter). Gibt es da keine Möglichkeit vorzubeugen und die wieder raus zu bekommen?
Bei mir war auch ein GoogleBot/2.1 (IP:66.249.72.75 ist doch Google oder) unterwegs.
Verfasst: 29.05.2006, 16:55
von marc75
Netscape 6.0
ein googlebot mit netscape Kennung ist mir noch nicht untergekommen. Höchstens ein Mitarbeiter via browser.
Verfasst: 29.05.2006, 18:50
von net(t)worker
ups...
stimmt ja... hab gerade selber meine logfiles angesehen... er gibt sich ja wirklich als Mozilla/5.0 (compatible; Googlebot/2.1; +
https://www.google.com/bot.html) aus... in meinem pphlogger steht er immer als Netscape 6.0;.... dachte daher er gibt sich auch so aus...
also würde es doch mit dem googlebot im useragent funzen... wenn er die Seite abrufen wurde....
Verfasst: 30.05.2006, 09:23
von Pretender
ok, nehmen wir einmal ich wollte 100%ig sicher gehen und das script doch einsetzen.
Wie müsste die Kennung genau sein um dem Bot eine Fehlermeldung vorzusetzen?
Einfach nur "Googlebot" ? oder "compatible; Googlebot/2.1" ??
Verfasst: 30.05.2006, 15:40
von Christophe
Pretender hat geschrieben:Ich habe im Moment keine Logiles aber ich gehe doch davon aus, wenn die URL`s im Google-Index auftauchen, daß Google Sie auch gespidert hat.
Matt Cutts hat geschrieben:You might wonder why Google will sometimes return an uncrawled url reference, even if Googlebot was forbidden from crawling that url by a robots.txt file. There’s a pretty good reason for that: back when I started at Google in 2000, several useful websites (eBay, the New York Times, the California DMV) had robots.txt files that forbade any page fetches whatsoever. Now I ask you, what are we supposed to return as a search result when someone does the query [california dmv]? We’d look pretty sad if we didn’t return
www.dmv.ca.gov as the first result. But remember: we weren’t allowed to fetch pages from
www.dmv.ca.gov at that point. The solution was to show the uncrawled link when we had a high level of confidence that it was the correct link. Sometimes we could even pull a description from the Open Directory Project, so that we could give a lot of info to users even without fetching the page.
Eine robots.txt-Datei wird nicht verhindern, dass die URLs ohne Beschreibung in Google auftauchen, solange es irgendwo Links auf diese Seite gibt.
Wenn du einen HTTP-404-Code sendest, wird es auch sehr lange dauern, bis Google diese Seiten vergisst.
Ich praktiziere in solchen Fällen zwei Varianten: Wenn es wichtig ist, dass die URL schnell entfernt wird, lösche ich sie mit der Urlconsole. Ansonsten kann man einen HTTP-301-Redirect einrichten und warten.