Seite 1 von 2
URLs mit dem inhalt "id" für googlebot sperren (ht
Verfasst: 25.11.2009, 20:39
von martin3221
Guten abend alle zusammen.
Ich habe folgendes Problem.
Ich habe ca. 150 Links auf meiner Webseite die über einen Clickcounter weitergeleitet werden, so ein Link sieht zum beispiel so aus
wenn diese URL aufgerufen wird, wird man zur echten URL weitergeleitet und der Click wird gezählt. Jetzt hat aber der Googlebot diese URLs alle indexiert und als Seiteninhalt wird jedesmal der Content der eigentlichen Ziel URL angegeben, der Content ist aber nicht von mir und gehört auch nicht zu meiner Webseite. Ich befürchte nun ein massives DC Problem.
Mein Lösungsansatz wäre mittels Htaccess dem Googlebot den Zugriff auf URLs mit den zeichen ? und id zu verweigern. Alternativ könnte man auch jede der 150 URLs einzeln sperren was ich aber lieber nicht möchte. Meint Ihr ist das möglich? Oder hat mir jemand einen besseren Tipp? Die seite ist in HTML programmiert da funktionieren die Tricks wie bei der Session ID glaub ich nicht.
Gruss Martin
Verfasst:
von
Hochwertiger Linkaufbau bei ABAKUS:
- Google-konformer Linkaufbau
- nachhaltiges Ranking
- Linkbuilding Angebote zu fairen Preisen
- internationale Backlinks
Wir bieten
Beratung und
Umsetzung.
Jetzt anfragen:
0511 / 300325-0
Verfasst: 25.11.2009, 20:53
von r-alf
Probiers mal mit der robots.txt und mit den G-WMT

Verfasst: 25.11.2009, 20:55
von mano_negra
du kannst ja den ganzen ordner clickcounter sperren.
was meinst du mit "Seiteninhalt wird jedesmal der Content der eigentlichen Ziel URL angegeben"? wo wird das angegeben? im cache?
wie wird denn weitergeleitet, mit 301 oder 302?
Verfasst:
von
Content Erstellung von
ABAKUS Internet Marketing
Ihre Vorteile:
- einzigartige Texte
- suchmaschinenoptimierte Inhalte
- eine sinnvolle Content-Strategie
- Beratung und Umsetzung
Jetzt anfragen:
0511 / 300325-0
Verfasst: 25.11.2009, 21:06
von martin3221
@r-alf
Ja das mach ich jetzt vertraue aber nicht darauf weil der Ordner /Clickcounter in der Robots bereits gesperrt war und Googlebot es anscheinend Ignoriert hat.
@mano_negra
meinst du den Ordner Clickcounter per Htaccess sperren?
Ja im Cache. Wenn man in der Googlesuche dann draufklickt landet man auf der Zielseite die ich im Clickcounter eingetragen habe. Googlebot denkt eben dass die Seite zu mir gehört und merkt nicht dass es ein Link ist.
Wie weitergeleitet wird weiss ich nicht, es wird einfach in der Clickcounter Datenbank die ID aufgerufen und dann gehts weiter.
Verfasst: 25.11.2009, 21:17
von r-alf
Vielleicht tust du besser daran dir einen anderen Counter zuzulegen;-)
Verfasst: 25.11.2009, 21:24
von mano_negra
ich habe die robots.txt gemeint (aber das hast du ja schon gemacht)
wenn die links aber tatsächlich im cache auftauchen, dann ist das komisch und ausserdem müsste dann eine 302 weiterleitung im spiel sein.
mir fällt jetzt nur noch nofollow verlinkung ein.

Verfasst: 25.11.2009, 21:37
von martin3221
Hm ich habe jetzt mal im Clickcounter Ordner rumgewühlt und habe die datei /click.php mal geöffnet steht folgendes drin, in den letzten zeilen ganz unten steht etwas von redirect.
Code: Alles auswählen
<?php
error_reporting(E_ALL ^ E_NOTICE);
define('IN_SCRIPT',1);
/* Get settings from the settings.php file */
require 'settings.php';
/* First check if the ID is set and if it is valid */
$id = $_GET['id'];
if (empty($id) || preg_match("/\D/",$id)) {die('Invalid ID, numbers (0-9) only!');}
/* Get lines from file */
$lines = file($settings['logfile']);
/* Let's found the line that starts with our ID number */
$found = 0;
$i = 0;
foreach ($lines as $thisline) {
if (strpos($thisline, $id.'%%') === 0) {
/* We found the line, now we get URL and count from the line */
$thisline = trim($thisline);
list($id,$added,$url,$count,$name) = explode('%%',$thisline);
/* Increase count by 1 and update this line */
$count = $count + 1;
$lines[$i]=$id.'%%'.$added.'%%'.$url.'%%'.$count.'%%'.$name."\r\n";
$found=1;
break;
}
/* This line didn't start with our ID, lets go to the next one */
$i++;
}
if ($found != 1) {die('This ID doesn\'t exist!');}
if ($settings['count_unique']==0 || $_COOKIE['ccount_unique']!=$id) {
/* Rewrite the log file with the updated line */
$content = implode('', $lines);
$fp = fopen($settings['logfile'],'w') or die('Can\'t write to log file! Please Change the file permissions (CHMOD to 666 on UNIX machines!)');
flock($fp, LOCK_EX);
fputs($fp,$content);
flock($fp, LOCK_UN);
fclose($fp);
/* Print the Cookie and P3P compact privacy policy */
header('P3P: CP="NOI NID"');
setcookie('ccount_unique', $id, time()+60*60*$settings['unique_hours']);
}
/* Redirect to the link URL */
Header('Location: '.$url);
exit();
?>
Verfasst: 25.11.2009, 22:23
von martin3221
Jetzt habe ich eine Idee.
In der Htaccess eine Regel definieren die nur für Googlebot gilt.
beim aufruf von
den Fehlercode 404 oder 410 an Googlebot zurücksenden. Ich wäre froh wenn mir jemand den korrekten Code aus dem Hut zaubern könnte. Ich glaube man braucht dazu auch nicht für alle 214 URLs (ich hab nachgezählt) eine Regel zu schreiben es würde genügen wenn die Regel heisst:
Code: Alles auswählen
alles was webseite.com/clickcounter/click.php?id= in der URL beinhaltet ist 404 oder 410
Verfasst: 25.11.2009, 22:36
von mano_negra
Code: Alles auswählen
/* Redirect to the link URL */
Header('Location: '.$url);
exit();
ich glaub das leitet standardmässig 302 weiter
füge noch
header("Status: 301"); ein
also:
Code: Alles auswählen
/* Redirect to the link URL */
header("Status: 301");
Header('Location: '.$url);
exit();
du kannst den link aber auch hier eingeben, um zu wissen was für weiterleitung das ist:
https://web-sniffer.net/
404er auszuliefern halte ich für keine gute idee.
Verfasst: 25.11.2009, 22:48
von martin3221
Danke, gutes Tool.
Ja du hast recht es gibt einen 302 zurück. Ich werde jetzt das Script ergänzen wie von dir beschrieben.
Verfasst: 25.11.2009, 22:57
von martin3221
Ja da tut sich was.
Code: Alles auswählen
HTTP Status Code: HTTP/1.1 302 Found
Date: Wed, 25 Nov 2009 21:51:50 GMT
Server: Apache/2.2.3 (Debian) mod_jk/1.2.18 mod_python/3.2.10 Python/2.4.4 PHP/5.2.0-8+etch15 mod_ssl/2.2.3 OpenSSL/0.9.8c mod_perl/2.0.2 Perl/v5.8.8
X-Powered-By: PHP/5.2.0-8+etch15
P3P: CP="NOI NID"
Set-Cookie: ccount_unique=100; expires=Thu, 26-Nov-2009 21:51:50 GMT
Status: 301
Location: http://www.derlink.com/blablabla
Content-Length: 0
Connection: close
Content-Type: text/html
Bei Status steht jetzt 301. Meinst du das wars schon?
Verfasst: 26.11.2009, 00:12
von mano_negra
Meinst du das wars schon?
keine ahnung, ehrlich gesagt
Verfasst: 26.11.2009, 00:37
von martin3221
Ja vieleicht hat morgen noch jemand eine Idee. Ich würde die htaccess variante nämlich bevorzugen mit einem 410 . 404 oder 410 ist nämlich bedingung um eine URL mit G-WMT zu entfernen, das wäre dann die sichere Variante und es geht schneller bis der DC verschwunden ist.
Danke dir jedenfalls.
Verfasst: 26.11.2009, 08:25
von 800XE
martin3221 hat geschrieben:Ja da tut sich was.
Code: Alles auswählen
HTTP Status Code: HTTP/1.1 302 Found
Status: 301
Location: http://www.derlink.com/blablabla
Bei Status steht jetzt 301. Meinst du das wars schon?
Ja, was jetzt 301 oder 302?
www.chegu.de/AWT/HTTP-Header.html
Code: Alles auswählen
function make301($goto)
{
header("HTTP/1.1 301 Moved Permanently");
header("Location: http://$goto"); // Umleitung des Browsers
exit;
}
nix "Staus: 301"
"Protokol/Version Statusnummer Statusname"
wobei der Statusname nicht wirklich wichtig ist
aber dein "Status: 301" scheint mir definitiv falsch, da normal der Andere dadurch überschrieben werden muß ... und der Status immer in der Ersten zeile steht, hinter dem Protokol
martin3221 hat geschrieben:Ja vieleicht hat morgen noch jemand eine Idee. Ich würde die htaccess variante nämlich bevorzugen mit einem 410 . 404 oder 410 ist nämlich bedingung um eine URL mit G-WMT zu entfernen, das wäre dann die sichere Variante und es geht schneller bis der DC verschwunden ist.
Danke dir jedenfalls.
Der /clickcount7 ist in robots.txt Disallow?
quick and Dirty noch nen Cloacker
(vor die Status301 und Location)
Code: Alles auswählen
if ( strstr( $_SERVER['HTTP_USER_AGENT'], 'Googlebot' ) )
{
header( 'HTTP/1.1 410 Gone' );
exit();
}
Verfasst: 26.11.2009, 08:50
von mano_negra
800XE hat geschrieben:martin3221 hat geschrieben:Ja da tut sich was.
Code: Alles auswählen
HTTP Status Code: HTTP/1.1 302 Found
Status: 301
Location: http://www.derlink.com/blablabla
Bei Status steht jetzt 301. Meinst du das wars schon?
Ja, was jetzt 301 oder 302?
www.chegu.de/AWT/HTTP-Header.html
das hab ich jetzt auch gesehen und umleitungen von mir darauf geprüft.
das selbe ergebnis?
chegu.de gibt ebenfalls das gleiche aus.
hab es mit verschiedenen header-auslesern getestet, 33% sagen es ist eine suchmaschinenfreundliche 301 weiterleitung, 33% sagen es ist eine 302-weiterleitung, der rest gibt so ein mischmasch aus?
die umleitung sieht so aus:
Code: Alles auswählen
<?php
header("Status: 301");
header("Location: http://www.domain.com");
exit;
?>
was bedeutet das jetzt?