ABAKUS

Verfasst: **25.11.2009, 20:39**

Guten abend alle zusammen.

Ich habe folgendes Problem.
Ich habe ca. 150 Links auf meiner Webseite die über einen Clickcounter weitergeleitet werden, so ein Link sieht zum beispiel so aus

Code: Alles auswählen

webseite.com/clickcounter/click.php?id=55

wenn diese URL aufgerufen wird, wird man zur echten URL weitergeleitet und der Click wird gezählt. Jetzt hat aber der Googlebot diese URLs alle indexiert und als Seiteninhalt wird jedesmal der Content der eigentlichen Ziel URL angegeben, der Content ist aber nicht von mir und gehört auch nicht zu meiner Webseite. Ich befürchte nun ein massives DC Problem.

Mein Lösungsansatz wäre mittels Htaccess dem Googlebot den Zugriff auf URLs mit den zeichen ? und id zu verweigern. Alternativ könnte man auch jede der 150 URLs einzeln sperren was ich aber lieber nicht möchte. Meint Ihr ist das möglich? Oder hat mir jemand einen besseren Tipp? Die seite ist in HTML programmiert da funktionieren die Tricks wie bei der Session ID glaub ich nicht.

Gruss Martin

Verfasst: **25.11.2009, 20:53**

Probiers mal mit der robots.txt und mit den G-WMT

Verfasst: **25.11.2009, 20:55**

du kannst ja den ganzen ordner clickcounter sperren.

was meinst du mit "Seiteninhalt wird jedesmal der Content der eigentlichen Ziel URL angegeben"? wo wird das angegeben? im cache?
wie wird denn weitergeleitet, mit 301 oder 302?

Verfasst: **25.11.2009, 21:06**

@r-alf
Ja das mach ich jetzt vertraue aber nicht darauf weil der Ordner /Clickcounter in der Robots bereits gesperrt war und Googlebot es anscheinend Ignoriert hat.

@mano_negra
meinst du den Ordner Clickcounter per Htaccess sperren?

Ja im Cache. Wenn man in der Googlesuche dann draufklickt landet man auf der Zielseite die ich im Clickcounter eingetragen habe. Googlebot denkt eben dass die Seite zu mir gehört und merkt nicht dass es ein Link ist.

Wie weitergeleitet wird weiss ich nicht, es wird einfach in der Clickcounter Datenbank die ID aufgerufen und dann gehts weiter.

Verfasst: **25.11.2009, 21:17**

Vielleicht tust du besser daran dir einen anderen Counter zuzulegen;-)

Verfasst: **25.11.2009, 21:24**

ich habe die robots.txt gemeint (aber das hast du ja schon gemacht)

wenn die links aber tatsächlich im cache auftauchen, dann ist das komisch und ausserdem müsste dann eine 302 weiterleitung im spiel sein.

mir fällt jetzt nur noch nofollow verlinkung ein.

Verfasst: **25.11.2009, 21:37**

Hm ich habe jetzt mal im Clickcounter Ordner rumgewühlt und habe die datei /click.php mal geöffnet steht folgendes drin, in den letzten zeilen ganz unten steht etwas von redirect.

Code: Alles auswählen

<?php

error_reporting&#40;E_ALL ^ E_NOTICE&#41;;
define&#40;'IN_SCRIPT',1&#41;;

/* Get settings from the settings.php file */
require 'settings.php';

/* First check if the ID is set and if it is valid */
$id = $_GET&#91;'id'&#93;;
if &#40;empty&#40;$id&#41; || preg_match&#40;"/\D/",$id&#41;&#41; &#123;die&#40;'Invalid ID, numbers &#40;0-9&#41; only!'&#41;;&#125;

/* Get lines from file */
$lines = file&#40;$settings&#91;'logfile'&#93;&#41;;

/* Let's found the line that starts with our ID number */
$found = 0;
$i = 0;
foreach &#40;$lines as $thisline&#41; &#123;
    if &#40;strpos&#40;$thisline, $id.'%%'&#41; === 0&#41; &#123;
        /* We found the line, now we get URL and count from the line */
        $thisline = trim&#40;$thisline&#41;;
        list&#40;$id,$added,$url,$count,$name&#41; = explode&#40;'%%',$thisline&#41;;
        /* Increase count by 1 and update this line */
        $count = $count + 1;
        $lines&#91;$i&#93;=$id.'%%'.$added.'%%'.$url.'%%'.$count.'%%'.$name."\r\n";
        $found=1;
        break;
    &#125;
    /* This line didn't start with our ID, lets go to the next one */
    $i++;
&#125;
if &#40;$found != 1&#41; &#123;die&#40;'This ID doesn\'t exist!'&#41;;&#125;

if &#40;$settings&#91;'count_unique'&#93;==0 || $_COOKIE&#91;'ccount_unique'&#93;!=$id&#41; &#123;
    /* Rewrite the log file with the updated line */
    $content = implode&#40;'', $lines&#41;;
    $fp = fopen&#40;$settings&#91;'logfile'&#93;,'w'&#41; or die&#40;'Can\'t write to log file! Please Change the file permissions &#40;CHMOD to 666 on UNIX machines!&#41;'&#41;;
    flock&#40;$fp, LOCK_EX&#41;;
    fputs&#40;$fp,$content&#41;;
    flock&#40;$fp, LOCK_UN&#41;;
    fclose&#40;$fp&#41;;

    /* Print the Cookie and P3P compact privacy policy */
    header&#40;'P3P&#58; CP="NOI NID"'&#41;;
    setcookie&#40;'ccount_unique', $id, time&#40;&#41;+60*60*$settings&#91;'unique_hours'&#93;&#41;;
&#125;

/* Redirect to the link URL */
Header&#40;'Location&#58; '.$url&#41;;
exit&#40;&#41;;
?>

Verfasst: **25.11.2009, 22:23**

Jetzt habe ich eine Idee.

In der Htaccess eine Regel definieren die nur für Googlebot gilt.

beim aufruf von

Code: Alles auswählen

webseite.com/clickcounter/click.php?id=55

den Fehlercode 404 oder 410 an Googlebot zurücksenden. Ich wäre froh wenn mir jemand den korrekten Code aus dem Hut zaubern könnte. Ich glaube man braucht dazu auch nicht für alle 214 URLs (ich hab nachgezählt) eine Regel zu schreiben es würde genügen wenn die Regel heisst:

Code: Alles auswählen

alles was webseite.com/clickcounter/click.php?id= in der URL beinhaltet ist 404 oder 410

Verfasst: **25.11.2009, 22:36**

Code: Alles auswählen

/* Redirect to the link URL */
Header&#40;'Location&#58; '.$url&#41;;
exit&#40;&#41;;

ich glaub das leitet standardmässig 302 weiter

füge noch
header("Status: 301"); ein

also:

Code: Alles auswählen

/* Redirect to the link URL */
header&#40;"Status&#58; 301"&#41;;
Header&#40;'Location&#58; '.$url&#41;;
exit&#40;&#41;;

du kannst den link aber auch hier eingeben, um zu wissen was für weiterleitung das ist: https://web-sniffer.net/

404er auszuliefern halte ich für keine gute idee.

Verfasst: **25.11.2009, 22:48**

Danke, gutes Tool.
Ja du hast recht es gibt einen 302 zurück. Ich werde jetzt das Script ergänzen wie von dir beschrieben.

Verfasst: **25.11.2009, 22:57**

Ja da tut sich was.

Code: Alles auswählen

HTTP Status Code&#58; HTTP/1.1 302 Found
Date&#58;	Wed, 25 Nov 2009 21&#58;51&#58;50 GMT	
Server&#58;	Apache/2.2.3 &#40;Debian&#41; mod_jk/1.2.18 mod_python/3.2.10 Python/2.4.4 PHP/5.2.0-8+etch15 mod_ssl/2.2.3 OpenSSL/0.9.8c mod_perl/2.0.2 Perl/v5.8.8	
X-Powered-By&#58;	PHP/5.2.0-8+etch15	
P3P&#58;	CP="NOI NID"	
Set-Cookie&#58;	ccount_unique=100; expires=Thu, 26-Nov-2009 21&#58;51&#58;50 GMT	
Status&#58;	301	
Location&#58;	http&#58;//www.derlink.com/blablabla
Content-Length&#58;	0	
Connection&#58;	close	
Content-Type&#58;	text/html

Bei Status steht jetzt 301. Meinst du das wars schon?

Verfasst: **26.11.2009, 00:12**

Meinst du das wars schon?

keine ahnung, ehrlich gesagt

Verfasst: **26.11.2009, 00:37**

Ja vieleicht hat morgen noch jemand eine Idee. Ich würde die htaccess variante nämlich bevorzugen mit einem 410 . 404 oder 410 ist nämlich bedingung um eine URL mit G-WMT zu entfernen, das wäre dann die sichere Variante und es geht schneller bis der DC verschwunden ist.

Danke dir jedenfalls.

Verfasst: **26.11.2009, 08:25**

martin3221 hat geschrieben:Ja da tut sich was.
Code: Alles auswählen
HTTP Status Code&#58; HTTP/1.1 302 Found

Status&#58;	301	
Location&#58;	http&#58;//www.derlink.com/blablabla
Bei Status steht jetzt 301. Meinst du das wars schon?

Ja, was jetzt 301 oder 302? www.chegu.de/AWT/HTTP-Header.html

Code: Alles auswählen

function make301&#40;$goto&#41;

&#123;

  header&#40;"HTTP/1.1 301 Moved Permanently"&#41;; 

  header&#40;"Location&#58; http&#58;//$goto"&#41;; // Umleitung des Browsers

  exit;

&#125;

nix "Staus: 301"

"Protokol/Version Statusnummer Statusname"

wobei der Statusname nicht wirklich wichtig ist

aber dein "Status: 301" scheint mir definitiv falsch, da normal der Andere dadurch überschrieben werden muß ... und der Status immer in der Ersten zeile steht, hinter dem Protokol

martin3221 hat geschrieben:Ja vieleicht hat morgen noch jemand eine Idee. Ich würde die htaccess variante nämlich bevorzugen mit einem 410 . 404 oder 410 ist nämlich bedingung um eine URL mit G-WMT zu entfernen, das wäre dann die sichere Variante und es geht schneller bis der DC verschwunden ist.

Danke dir jedenfalls.

Der /clickcount7 ist in robots.txt Disallow?

quick and Dirty noch nen Cloacker
(vor die Status301 und Location)

Code: Alles auswählen

if &#40; strstr&#40; $_SERVER&#91;'HTTP_USER_AGENT'&#93;, 'Googlebot' &#41; &#41;
&#123;
  header&#40;  'HTTP/1.1 410 Gone'  &#41;;
  exit&#40;&#41;;

&#125;

Verfasst: **26.11.2009, 08:50**

800XE hat geschrieben:
martin3221 hat geschrieben:Ja da tut sich was.
Code: Alles auswählen
HTTP Status Code&#58; HTTP/1.1 302 Found

Status&#58;	301	
Location&#58;	http&#58;//www.derlink.com/blablabla
Bei Status steht jetzt 301. Meinst du das wars schon?
Ja, was jetzt 301 oder 302? www.chegu.de/AWT/HTTP-Header.html

das hab ich jetzt auch gesehen und umleitungen von mir darauf geprüft.
das selbe ergebnis?

chegu.de gibt ebenfalls das gleiche aus.
hab es mit verschiedenen header-auslesern getestet, 33% sagen es ist eine suchmaschinenfreundliche 301 weiterleitung, 33% sagen es ist eine 302-weiterleitung, der rest gibt so ein mischmasch aus?

die umleitung sieht so aus:

Code: Alles auswählen

<?php
header&#40;"Status&#58; 301"&#41;;
header&#40;"Location&#58; http&#58;//www.domain.com"&#41;;
exit;
?>

was bedeutet das jetzt?

ABAKUS

URLs mit dem inhalt "id" für googlebot sperren (ht

URLs mit dem inhalt "id" für googlebot sperren (ht