Seite 1 von 1

URLs mit dem Inhalt /itemlist/ mit .htaccess sperren

Verfasst: 07.08.2010, 13:05
von herbert00
Hallo,

ich habe eine Seite mit Joomal gebaut und nun hat google viele Seiten doppelt indexiert.
Einmal mit einer normalen URL-Struktur:

https://www.example.org/verzeichnis1/ve ... s2/artikel

und dann nochmal mit einer "wirren" URL-Sturktur:

https://www.example.org/verzeichnis1/ve ... 1?start=14

Von dieser wirren URL-Sturuktur gibt es noch die verschiedensten Kombinationen, keine Ahnung wieso Joomla die so generiert.

Ich habe nun alle URLs mit einem enthaltenen /itemlist/ Verzeichnis über die robots.txt gesperrt. Trotzdem sind noch solche URLs im Index bzw. schleichen sich neu in den Index rein.
Nun möchte ich alle URLs die "itemlist" enthalten über die htaccess sperren.
Wie ist hierzu der korrekte .htaccess Befehl?
Kann mir da jemand weiterhelfen?

Danke und viele Grüße
Herbert

Verfasst:
von

Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Verfasst: 07.08.2010, 13:51
von e.player
Wäre Ich auch interessiert, hab auch das Joomla Problem

Verfasst: 07.08.2010, 13:54
von Synonym
Nun möchte ich alle URLs die "itemlist" enthalten über die htaccess sperren.
Wie ist hierzu der korrekte .htaccess Befehl?
Wäre Ich auch interessiert, hab auch das Joomla Problem
Sowas?

Code: Alles auswählen

RewriteCond %{REQUEST_URI} /itemlist/
RewriteRule ^ - [F]

Verfasst:
von

Verfasst: 09.08.2010, 06:13
von herbert00
Synonym hat geschrieben:
Nun möchte ich alle URLs die "itemlist" enthalten über die htaccess sperren.
Wie ist hierzu der korrekte .htaccess Befehl?
Wäre Ich auch interessiert, hab auch das Joomla Problem
Sowas?

Code: Alles auswählen

RewriteCond %{REQUEST_URI} /itemlist/
RewriteRule ^ - [F]
Danke für die Antwort! Was würde denn passieren, wenn man diesen Befehl einbaut und dann eine URL mit dem Inhalt /itemlist/ aufruft? Was bedeutet dies [F]?

Danke und Gruß
Herbert

Verfasst: 09.08.2010, 08:43
von Synonym
https://httpsd.apache.org/docs/2.2/rewr ... html#flags

Es wird ein Header 403 (forbidden) gesendet.

Verfasst: 09.08.2010, 15:30
von herbert00
Synonym hat geschrieben:https://httpsd.apache.org/docs/2.2/rewr ... html#flags

Es wird ein Header 403 (forbidden) gesendet.
Super, danke für den Tip. Mit einem 403 müssten die Seiten schnell aus dem Index fliegen, oder?

Gruß
Herbert

Verfasst: 09.08.2010, 15:39
von Synonym
Na da wird halt der Zugriff verweigert, Du sagtest ja was von Sperren. Ansonsten kannst Du auch das Flag G nehmen, dann wird ein 410 (gone) gesendet.

Verfasst: 09.08.2010, 15:43
von herbert00
Stimmt, das war von mir unklar ausgedrückt.
Letztendlich ist das Ziel
A) die Seiten aus dem Index zu bekommen
B) die zukünftige Indexierung von Seiten mit /itemlist/ zu vermeiden

Dann werde ich es mal mit [G] versuchen....

Danke und Gruß
Herbert

Verfasst: 09.02.2011, 22:47
von herbert00
Die entsprechenden Links haben nun alle den Status [410 Gone]. Google hat sie aber nun trotzdem weiter im Index. Wie kann ich die URLs komplett aus dem Index schmeißen? Ich verstehe nicht, wieso sie von Google nicht ausgelistet werden!?!?!

Verfasst: 10.02.2011, 15:19
von herbert00
vielleicht lags daran, dass ich die URLs mit der robots.txt geblockt hatte? :roll:

Verfasst: 11.02.2011, 08:50
von Synonym
vielleicht lags daran, dass ich die URLs mit der robots.txt geblockt hatte?
Sehr wahrscheinlich sogar. Wenn die da gesperrt sind, dann ruft Google die gar nicht ab. Ruft es die nicht ab, dann bemerkt es das [G] auch nicht ;-)

So ein Durcheinander hatte ich auch mal und wartete und wartete und nichts tat sich :-)

Du kannst Du URL doch auch mal in den WMT testen und Dir ansehen was Google da bekommt. Ich denke, Google kommt erst gar nicht so weit und bleibt an der robots.txt hängen.

- In den WMT anmelden
- Diagnose
- Abruf wie durch Googlebot
- URL eintippen und "abrufen"
- warten
- neu aufrufen und Ergebnis ansehen

Kommt dann "Von robots.txt abgelehnt", dann hast Du die Antwort :-)

Verfasst: 11.02.2011, 20:15
von herbert00
als Status kommt da bei den betreffenden URLs gerade "ausstehend".
Vielleicht liegt es daran, dass ich die Blockierung durch die robots.txt erst gestern aufgehoben hatte und der bot noch nicht vorbeigekommen ist, oder?

Gruß
Herbert

Verfasst: 12.02.2011, 09:18
von Synonym
Na wenn da "ausstehend" kommt, dann ist das oben mein Punkt "warten". Hab da extra nichts hingeschrieben, weil das immer sehr unterschiedlich ist. Von wenigen Sekunden bis hin zu einer halben Stunde.

Ob der schon die neue robots.txt kennst kannst Du oben beim Crawler-Zugriff (Bereich Website-Konfiguration) ja auch ansehen.