Herzlich willkommen im Archiv vom ABAKUS Online Marketing Forum
Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.
Da verwechselst Du wohl die robots.txt mit der htaccess. Ein Aufruf lässt sich zwar mit der htaccess regeln, doch nicht mit der robots.txt, in der lediglich festgehalten wird, welche Bots welche Seiten indexieren dürfen und welche nicht. Wird in der robots.txt nichts eingetragen, dürfen alle Seiten indexiert werden. Werden hingegen bestimmte Seiten in der robots.txt von der Indizierung ausgeschlossen, so lassen diese sich selbstverständlich noch aufrufen, weil die robots.txt keinen Einfluss darauf hat.fiacyberz hat geschrieben:Robots sperrt nur den Aufruf, nicht aber die Indizierung
Ich werde das mal ausprobieren. Sprechende URIs habe ich keine.Melegrian hat geschrieben:Wie in Deinem Beispiel sollte es möglich sein:
Disallow: /-s*.html$
Code: Alles auswählen
Disallow: /-s*.html$
Code: Alles auswählen
/*-s10.html
/*-s20.html
etc.
Stimmt. Ich habe den Crawler-Zugriff mittlereweile in den GWT getestet.chris21 hat geschrieben:sperrt www.example.com/-s10.html
aber nicht
www.example.com/-abcdefg-s10.html
Code: Alles auswählen
Disallow: /forum/*-s*.html$
Code: Alles auswählen
/forum/forum24-s1980.html
Code: Alles auswählen
<meta name="robots" content="noindex, follow">
Also kann man mit einem Disallow regelrecht seine interne Verlinkung verschlechtern?chris21 hat geschrieben:Interne Links auf Seiten, die per robots.txt ausgeschlossen sind, sind nichtexistent, da die Seite nicht gecrawlt wird.
Code: Alles auswählen
<meta name="robots" content="noindex, nofollow">
Was aber wenn zusätzlich zu einem Disallow in der robots.txt die gleiche SeiteMelegrian hat geschrieben:Die interne Verlinkung wird so gewertet oder sollte zumindest so gewertet werden, als würden diese Seiten nicht existieren.
Code: Alles auswählen
<meta name="robots" content="follow">
Das würde sich sogar etwas widersprechen oder gegenseitig im Weg stehen. Wenn die Suma ein Disallow von der robots.txt bekommt, dann ruft die das File normalerweise erst gar nicht auf. Ruft die es aber nicht auf, dann findet sie auch die Meta-Robots nicht, logisch oder?Was aber wenn zusätzlich zu einem Disallow in der robots.txt die gleiche Seite
einen Follow Meta-Tag im Header hat?
Code: Alles auswählen
<meta name="robots" content="noindex, follow">
Code: Alles auswählen
maennerbrillen.html?SortAsc=1&Site=2#ProductOverviewAnchor
Code: Alles auswählen
Disallow: /*?
Das hört sich ja alles plausibel an und das möchte ich auch nicht bestreiten. Alles was ich weiß, dass habe ich mir nur angelesen oder erprobt und da mögen sich Fehler im Verständnis eingeschlichen haben. Nur wenn ich dann so etwas lese, dann interpretiere ich das nicht so, dass eine Suma das entsprechende Verzeichnis oder die entsprechende Datei nur nicht aufruft und crawlt, sondern diese auch nicht indexiert:Synonym hat geschrieben:Wenn Seiten per "robots.txt" auf Disallow stehen, dann heißt das nur, dass sie Suma das entsprechende File / Verzeichnis nicht aufrufen soll. Eine Indexierung ist dennoch möglich, etwa wenn ein Link von außen auf die Seite gesetzt wird.
Zwar heißt es dann weiterhin,...Zwar wird der Content von Seiten, die durch die Datei "robots.txt" blockiert sind, von Google weder gecrawlt noch indexiert,...
Doch das schrieb ich ja weiter oben bereits, dass in diesem Fall nur die URLs und Links bei einer Seitenabfrage vorübergehend in den Suchergebnissen erscheinen,...möglicherweise erfolgt jedoch dennoch eine Indexierung der URLs, falls diese auf anderen Webseiten gefunden werden. Folglich können die URL der Seite und eventuell auch andere öffentlich verfügbare Informationen wie z. B. der Ankertext in Links zu der Website ... in den Google-Suchergebnissen angezeigt werden.
Und alles was ich da bisher über die Jahre wahrnahm, das verhielt sich auch so. Bei jeder Abfrage site:www… erschienen als letzte Ergebnisse vorübergehend einige URLs von Seiten, die eigentlich durch die robots.txt gesperrt waren. Google fand die halt irgendwie und nahm deren URL als Link kurzeitig auf. Doch alle verschwanden mit der Zeit von alleine wieder aus dem Index, weil die zugehörigen Dateien nicht gecrawlt bzw. indexiert wurden....nur deren Inhalt nicht indexiert wird und die URIs von diesen Seiten dann später wieder aus dem Index verschwinden.