Seite 1 von 3

robots.txt wird ignoriert?

Verfasst: 08.03.2005, 13:19
von mgutt
Hi,

so sieht meine Robots.txt aus:

Code: Alles auswählen

### meine Robotstextdatei von www.maxrev.de
User-agent: *
Disallow: /login.php
Disallow: /admin/
Disallow: /db/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /templates/
Disallow: /config.php
Disallow: /profile.php
Disallow: /groupcp.php
Disallow: /memberlist.php
Disallow: /modcp.php
Disallow: /posting.php
Disallow: /privmsg.php
Disallow: /viewonline.php
Disallow: /faq.php
Disallow: /printtopic.php
Disallow: /emailtopic.php
Disallow: /download.php
Disallow: /ptopic*.htm$
Disallow: /ntopic*.htm$
Disallow: /fpost*.htm$
Disallow: /uttopic*.htm$
Disallow: /uptopic*.htm$
Disallow: /newtopic*.htm$
Disallow: /ftopic*asc*.htm$
Disallow: /wtopic*.htm$
Wenn ich aber nun meine indexierten Seiten bei Google aufrufe:

https://www.google.de/search?hl=de&q=si ... v.de&meta=

Dann sieht man dort haufenweise genau diese Links. Zwar ohne Content, aber sie werden ja anscheinend doch gelistet.

Welche Erfahrungen habt ihr bei diesem Thema gemacht?

Verfasst:
von

robots.txt wird ignoriert?

Verfasst: 08.03.2005, 13:40
von Boa
Ich habe mal gelesen, das nur Verzeichnisse aber nicht Dateien ausgesperrt werden.

robots.txt wird ignoriert?

Verfasst: 08.03.2005, 15:25
von mgutt
Hier auf der Seite ganz unten:

https://www.robotstxt.org/wc/exclusion-admin.html

Dann siehst du, dass man auch einzelne Pages disallowen kann.

Verfasst:
von
Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

robots.txt wird ignoriert?

Verfasst: 09.03.2005, 06:41
von mauri
erstens liegt dein forum nicht im root. das sagt aber deine robots.txt aus.
dann sind :
Disallow: /ptopic*.htm$
Disallow: /ntopic*.htm$
Disallow: /fpost*.htm$
Disallow: /uttopic*.htm$
Disallow: /uptopic*.htm$
Disallow: /newtopic*.htm$
Disallow: /ftopic*asc*.htm$
Disallow: /wtopic*.htm$
das fuer die robots.txt neue zeichen, die keine suchmaschine anerkennt.
gruss

robots.txt wird ignoriert?

Verfasst: 09.03.2005, 12:27
von mgutt
ich dachte * wäre ein Platzhalter auch für die robots.txt?

Und mein Forum liegt doch im Root? gucks du: www.maxrev.de/forum.htm

robots.txt wird ignoriert?

Verfasst: 09.03.2005, 12:38
von larsneo
die wildcards kennt zumindestens google - bei einem 'guten' rewrite würde ich von daher

Code: Alles auswählen

12. Wie veranlasse ich Googlebot, dynamisch erstellte Seiten auf meiner Site nicht zu durchlaufen?

Dies kann mithilfe der folgenden robots.txt-Datei erreicht werden.

       User-agent: Googlebot
       Disallow: /*?
setzen um alle dynamischen inhalte aus google herauszuhalten...

robots.txt wird ignoriert?

Verfasst: 09.03.2005, 12:55
von mauri
stimmt, liegt im root> somit ein problem weniger.
nun gehe zu https://services.google.com:8882/urlcon ... uestStatus
dort anmelden und deine seiten rausschmeissen mit deiner robots.txt.
vorsicht, ueberpruefe noch mal deine robots.txt auch wirklich die seiten, ausschliesst, die du nicht im index haben willst. und nicht eine die du im index haben moechtest.
wenn alles passt> gibst du ihm deine robots.txt zum kicken deiner seiten.
hier wird ein fehler erscheinen> er wird dir sagen das er deine $ zeichen nicht mag.
somit, musst du sie anpassen und ich denke es sollte so aussehen.

Disallow: /ptopic
Disallow: /ntopic
Disallow: /fpost
Disallow: /uttopic
Disallow: /uptopic
Disallow: /newtopic
Disallow: /ftopic:oops:
Disallow: /wtopic


obwohl ich nicht verstehe warum du ftopic aussperren willst, das sind doch gerade die url's womit du google fuettern moechtest.
also wenn du das so eingibst, wuerde wohl das ganze forum gekickt.
und wenn google dann endlich deine robots.txt annimmt, dauert es etwa 24 stunden > dann ist der ganze rotz draussen.
aber wie gewarnt, falls du was kickst was du eigendlich drin haben moechtest.
dauert es ne weile bis es wieder drin ist.

obacht also.
gruss
mauri

Re: robots.txt wird ignoriert?

Verfasst: 09.03.2005, 14:15
von robbelsche
mauri hat geschrieben:...dauert es ne weile bis es wieder drin ist.
...sie sagen 90 Tage, es können aber wohl auch 120 sein... :D

Verfasst: 10.03.2005, 17:17
von mgutt
die ftopic*.htm sollen natürlich erhalten bleiben!

ftopic*asc*.htm (gleiches thema nur anders sortiert) ist doppelter content... das sollte nur raus.
mauri hat geschrieben: wenn alles passt> gibst du ihm deine robots.txt zum kicken deiner seiten.
hier wird ein fehler erscheinen> er wird dir sagen das er deine $ zeichen nicht mag.
Tja, das mit den Dollarzeichen habe ich nur nach Anweisung gemacht *zularsneorüberschau* ;)

EDIT: Ok ich habe was gefunden, was eine sichere Quelle darstellen sollte 0X

https://www.google.com/robots.txt

EDIT2:

ich habe nur mal folgende Änderung durchgeführt:

Code: Alles auswählen

Disallow: /ptopic
Disallow: /ntopic
Disallow: /fpost
Disallow: /uttopic
Disallow: /uptopic
Disallow: /newtopic
Disallow: /wtopic
mal sehen wie sich das auswirkt. bei einem großen forum habe ich das genauso vorgefunden.

EDIT3:

Was ich noch an doppelten bzw. 148-fachen !!!! Content gefunden habe:

https://www.google.de/search?q=maxrev+f ... 1&filter=0

Die sid's sind im Forum eigentlich deaktiviert, daher verstehe ich nicht wie Google trotzdem welche erhält.. können eigentlich nur von alten Links herrühren. Aber selbst wenn man den Link mit einer sid aufruft werden die nächsten Links alle "entsidded" :-?

EDIT4:

Ich habe vorsichtshalber das in die htaccess eingebaut, damit die Aliasdomains alle zu meiner Hauptdomain umgeschrieben werden:

Code: Alles auswählen

# change all urls to www.maxrev.de
RewriteEngine on

RewriteCond %{HTTP_HOST} !^www\.maxrev\.de$
RewriteRule ^(.*)$ http://www.maxrev.de/$1 [L,R=301]

robots.txt wird ignoriert?

Verfasst: 10.03.2005, 19:03
von shapeshifter
Uh oh - da freuen wir uns doch wieder auf 302-Links, wenn Google anfängt die robots.txt zu ignorieren ;)

robots.txt wird ignoriert?

Verfasst: 10.03.2005, 19:04
von mgutt
ich vermute eher, dass google seit kurzem alles listet, aber in den suchergebnissen nur das darstellt, was laut robots.txt erlaubt ist.

robots.txt wird ignoriert?

Verfasst: 11.03.2005, 11:00
von mgutt
ok, die robots.txt habe ich von Google abarbeiten lassen.

Tatsächlich sind jetzt alle Seiten, die vorher genervt haben weg.

Ein Phänomen, es werden nur noch zwei Ergebnisse angezeigt, weil der Rest wohl "ähnlich" ist :o

https://www.google.de/search?num=20&hl= ... v.de&meta=

Verfasst: 14.03.2005, 08:18
von mauri
mgutt, 2 ergebnisse angezeigt?
klick mal auf erweitert...
aber wie die sids dran kommen ist ein anderes prob.
weil das sollte dort nicht stehen> wuerde noch mal nachschauen, welchen mod du da eingebaut hast und ob andere den gleichen fehler haben und sehen, was sie taten.
viel erfolg

robots.txt wird ignoriert?

Verfasst: 22.03.2005, 13:21
von mgutt
jetzt sind es 35 ergebnisse.. der rest ist "ähnlich". wenn ich meine seiten mit anderen vergleiche merke ich, dass google bei den "ähnlichen" seiten im snippet nur meinen meta beschreibungstext darstellt. was ja dann darauf hindeutet, dass es dadurch zu den "ähnlichkeiten" kommt. vielleicht sollte ich diese kürzen oder wegstreichen.

die sids kann ich mir auch nicht sonderlich erklären. aber die seiten mit sids wurden nicht detailiert gelistet.

den zuvor 148-fachen Content konnte ich jetzt dadurch auf 78-fachen reduzieren:

https://www.google.de/search?q=maxrev+f ... N&filter=0

vielleicht sind die seiten schon vorher gespeichert worden, nur werden jetzt nicht mehr gelöscht :-?

wie kann ich denn mal total anonym testen als ob ich der googlebot wäre ob sids verteilt werden?

robots.txt wird ignoriert?

Verfasst: 22.03.2005, 13:33
von mauri
was willste die loeschen> das sind deine html seiten !
warum die sids dranhaengen....haste mal nachgeschaut, bei anderen die deinen mod drin haben?