Seite 1 von 1

Google soll Feeds lesen, aber nicht indizieren oder cachen

Verfasst: 16.03.2007, 13:16
von Harki
Ahoi,

ich hätte folgende Frage: Ich biete in meinem phpBB-Forum verschiedene RSS-Feeds an, die mit PHP erzeugt werden. Die URLs dieser Feeds werden per .htaccess umschrieben. Also etwas so:

https://meinforum.de/rss,styled,1.xml
https://meinforum.de/rss,f,2,styled,1.xml
https://meinforum.de/rss,topic,7732,styled,1.xml

Diesen Feed verwende ich auch als Sitemap für Google.

Wie nun bringe ich Google dazu, die URLs in diesen Feeds zwar zur Kenntnis zu nehmen, die Feeds selbst aber nicht in seinen Index aufzunehmen und vor allem auch nicht zu cachen?

Ich suche also sozusagen ein Äquivalent zu "<meta name="robots" content="noindex,follow,noarchive" />", nur eben für XML/RSS.

Wie geht das? (Falls es geht...)

Verfasst:
von

G kann auch PHP lesen !

Verfasst: 16.03.2007, 14:17
von clever-digital
Meine meinung nach kann G sogar PHP lesen..habe mehrere Fälle, wobei G die admin Ebene eines Servers einfach so mit ge-"cached" hat...das beste war...Die URL enthielt das PW !!Während der user online und connected ist,erkennt der G bot auch diesen "Durchgang" und cached alles mit !
Also.G kann viel mehr..verraten tun die es noch nicht !

Hier eine kleine demo was G so drauf hat !

https://www.google.com/search?hl=en&lr= ... passwd.bak

Ordner mit Passwörter einfach indexiert..

Also wenn G das kann, dann wird er auch deine RSS files wie luft aufsaugen können !
Toll oder :-(

Verfasst: 16.03.2007, 14:41
von ole1210
Wie soll google PHP lesen? Der Server liefert doch gar kein PHP aus.

Verfasst:
von
SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Verfasst: 16.03.2007, 14:50
von clever-digital
ich habe Fälle bei den die admin Ebene mit gecached worden ist..in der url konnte man login und pw lesen..einige davon waren php basierte und cgi basierte scripte

Verfasst: 16.03.2007, 15:00
von ole1210
In welcher Zeit lebst du denn, das du Login und Passwort sichtbar in der URL überträgst? Das war schon in der Jungsteinzeit überholt!

Diese daten wird sich Google dann beispielsweise über die Toolbar oder Analytics geholt haben.

PHP und CGI-basierte Seiten werden selbstverständluich indiziert. Allerdings nicht der PHP Code, sondern das, was der server ausliefert. das hat zwar möglicherweise die Endung php, ist aber kein PHP.

Verfasst: 16.03.2007, 15:05
von clever-digital
egal....Ich habe meine Erfahrungen gemacht und behaupte mal dass viele die Robots unterschätzen !

Verfasst: 16.03.2007, 15:20
von ole1210
Das hat mit unterschätzen nix zu tun. Das ist technisch rein gar nicht möglich.

Nimm dir beispielsweise mal das berühmte "Hello World" - Schnipselchen:

Code: Alles auswählen

<?php
  echo "Hello World";
  ?>
Der PHP-Code wird vom server verarbeitet und ausschliesslich das "Hello World" ausgeliefert.

Wie soll der restliche PHP-Code indiziert werden? das ist eine Einbahnstrasse. Das ist UNMÖGLICH!!!

Verfasst: 16.03.2007, 18:05
von anarix
Folgende Möglichkeit das Google dein Admin vielleicht casht:

Du bist im Admin und steuerst von dort eine URL draussen an.
Referer - Deine Admin-Site (inkl. pwd etc). diese logs liegen
mal irgendwo rum, werden öffentlich, google stolpert drüber,
indiziert.

PWD NIE IN URL!

Das ist nicht die Matrix.

Verfasst: 16.03.2007, 20:57
von JR-EWING
kannst du nicht im Admin Bereich einfach die Metas ändern ?

<meta name="robots" content="noindex,nofollow,noarchive"/>
<meta http-equiv="Pragma" content="no-cache"/>

sollten da helfen...

Verfasst: 16.03.2007, 21:23
von anarix
JR-EWING hat geschrieben:kannst du nicht im Admin Bereich einfach die Metas ändern ?

<meta name="robots" content="noindex,nofollow,noarchive"/>
<meta http-equiv="Pragma" content="no-cache"/>

sollten da helfen...
Das sind zwei unterschiedliche Probleme, oder?

1. Problem: Harki, der ein RSS-Feed als Sitemap benutzen will
2. Problem: Offtopic, das mit dem Admin in der Matrix.

@Harki, sorry, weiß da leider auch nix. Solltest wohl das Feed von der Sitemap trennen und eine Google Sitemap einrichten.

Verfasst: 17.03.2007, 00:10
von Kralle
Die RSS-Feeds in der robots.txt ausschließen, dann in deiner htaccess ne rewriterule für z. B. sitemaps.xml auf dein Feed. Die meldest du dann in deinem Sitemaps-Konto an. Wird dann verarbeitet, taucht aber nicht im Index auf. Ich brauche nicht zu erwähnen, daß du die sitemaps.xml nicht verlinken darfst.

Verfasst: 23.03.2007, 00:27
von Harki
Kralle hat geschrieben:Die RSS-Feeds in der robots.txt ausschließen, dann in deiner htaccess ne rewriterule für z. B. sitemaps.xml auf dein Feed. Die meldest du dann in deinem Sitemaps-Konto an. Wird dann verarbeitet, taucht aber nicht im Index auf. Ich brauche nicht zu erwähnen, daß du die sitemaps.xml nicht verlinken darfst.
Jep, danke für's Mitdenken! :) Genauso hatte ich das dann am Tag, an dem ich hier gefragt hatte, auch gemacht. Ich hatte das auch schon im Hinterkopf gehabt, war mir aber unsicher gewesen, und bin auch immer noch nicht letztlich sicher: nämlich inwiefern der Ausschluß von /rss in robots.txt in etwa die Blog-Sumas, die ja gerade auf

Code: Alles auswählen

<link rel="alternate" type="application/rss+xml" title="Meine Site - RSS-Feed" href="http&#58;//meine-site.de/rss,blabla.xml" />
im HTML-Code anspringen sollen, vergrätzen könnte. Bis jetzt war das aber nicht der Fall - Technorati & Co. holen sich den Feed weiterhin brav ab und indizieren mein Zeugs auch.

Verfasst: 23.03.2007, 20:10
von Kralle
Dann erlaube doch deren Bots explizit in der robots.txt, bzw. verbiete die Feeds nur dem Googlebot.

Verfasst: 23.03.2007, 20:49
von solay
ole1210 hat geschrieben:Das hat mit unterschätzen nix zu tun. Das ist technisch rein gar nicht möglich.

Nimm dir beispielsweise mal das berühmte "Hello World" - Schnipselchen:

Code: Alles auswählen

<?php
  echo "Hello World";
  ?>
Der PHP-Code wird vom server verarbeitet und ausschliesslich das "Hello World" ausgeliefert.

Wie soll der restliche PHP-Code indiziert werden? das ist eine Einbahnstrasse. Das ist UNMÖGLICH!!!
natürlich ist das möglich :)
z.B.
- IIS
- kein PHP drauf
- aufruf https://xxx.yyy.zzz.qqq/hello.php
dann liefer er :

Code: Alles auswählen

<?php 
  echo "Hello World"; 
?>