Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

robots.txt wird ignoriert?

Dieses Forum ist für Informationen über Google gedacht (Ausser PageRank!).
mgutt
PostRank 10
PostRank 10
Beiträge: 3206
Registriert: 08.03.2005, 13:13

Beitrag von mgutt » 08.03.2005, 13:19

Hi,

so sieht meine Robots.txt aus:

Code: Alles auswählen

### meine Robotstextdatei von www.maxrev.de
User-agent: *
Disallow: /login.php
Disallow: /admin/
Disallow: /db/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /templates/
Disallow: /config.php
Disallow: /profile.php
Disallow: /groupcp.php
Disallow: /memberlist.php
Disallow: /modcp.php
Disallow: /posting.php
Disallow: /privmsg.php
Disallow: /viewonline.php
Disallow: /faq.php
Disallow: /printtopic.php
Disallow: /emailtopic.php
Disallow: /download.php
Disallow: /ptopic*.htm$
Disallow: /ntopic*.htm$
Disallow: /fpost*.htm$
Disallow: /uttopic*.htm$
Disallow: /uptopic*.htm$
Disallow: /newtopic*.htm$
Disallow: /ftopic*asc*.htm$
Disallow: /wtopic*.htm$
Wenn ich aber nun meine indexierten Seiten bei Google aufrufe:

https://www.google.de/search?hl=de&q=si ... v.de&meta=

Dann sieht man dort haufenweise genau diese Links. Zwar ohne Content, aber sie werden ja anscheinend doch gelistet.

Welche Erfahrungen habt ihr bei diesem Thema gemacht?
Ich kaufe Dein Forum!
Kontaktdaten

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Boa
PostRank 9
PostRank 9
Beiträge: 1170
Registriert: 11.11.2003, 00:19
Wohnort: Bremen

Beitrag von Boa » 08.03.2005, 13:40

Ich habe mal gelesen, das nur Verzeichnisse aber nicht Dateien ausgesperrt werden.

mgutt
PostRank 10
PostRank 10
Beiträge: 3206
Registriert: 08.03.2005, 13:13

Beitrag von mgutt » 08.03.2005, 15:25

Hier auf der Seite ganz unten:

https://www.robotstxt.org/wc/exclusion-admin.html

Dann siehst du, dass man auch einzelne Pages disallowen kann.
Ich kaufe Dein Forum!
Kontaktdaten

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

mauri
PostRank 8
PostRank 8
Beiträge: 672
Registriert: 15.08.2003, 06:04
Wohnort: Wo es keinen Schnee gibt.

Beitrag von mauri » 09.03.2005, 06:41

erstens liegt dein forum nicht im root. das sagt aber deine robots.txt aus.
dann sind :
Disallow: /ptopic*.htm$
Disallow: /ntopic*.htm$
Disallow: /fpost*.htm$
Disallow: /uttopic*.htm$
Disallow: /uptopic*.htm$
Disallow: /newtopic*.htm$
Disallow: /ftopic*asc*.htm$
Disallow: /wtopic*.htm$
das fuer die robots.txt neue zeichen, die keine suchmaschine anerkennt.
gruss

mgutt
PostRank 10
PostRank 10
Beiträge: 3206
Registriert: 08.03.2005, 13:13

Beitrag von mgutt » 09.03.2005, 12:27

ich dachte * wäre ein Platzhalter auch für die robots.txt?

Und mein Forum liegt doch im Root? gucks du: www.maxrev.de/forum.htm
Ich kaufe Dein Forum!
Kontaktdaten

larsneo
PostRank 4
PostRank 4
Beiträge: 178
Registriert: 03.01.2005, 17:21
Wohnort: Schwäbisch Gmünd

Beitrag von larsneo » 09.03.2005, 12:38

die wildcards kennt zumindestens google - bei einem 'guten' rewrite würde ich von daher

Code: Alles auswählen

12. Wie veranlasse ich Googlebot, dynamisch erstellte Seiten auf meiner Site nicht zu durchlaufen?

Dies kann mithilfe der folgenden robots.txt-Datei erreicht werden.

       User-agent: Googlebot
       Disallow: /*?
setzen um alle dynamischen inhalte aus google herauszuhalten...
grüsse aus dem wilden süden
andreas <larsneo>
..::[zikula ]::.. ..::[cms-sicherheit.de]::..

mauri
PostRank 8
PostRank 8
Beiträge: 672
Registriert: 15.08.2003, 06:04
Wohnort: Wo es keinen Schnee gibt.

Beitrag von mauri » 09.03.2005, 12:55

stimmt, liegt im root> somit ein problem weniger.
nun gehe zu https://services.google.com:8882/urlcon ... uestStatus
dort anmelden und deine seiten rausschmeissen mit deiner robots.txt.
vorsicht, ueberpruefe noch mal deine robots.txt auch wirklich die seiten, ausschliesst, die du nicht im index haben willst. und nicht eine die du im index haben moechtest.
wenn alles passt> gibst du ihm deine robots.txt zum kicken deiner seiten.
hier wird ein fehler erscheinen> er wird dir sagen das er deine $ zeichen nicht mag.
somit, musst du sie anpassen und ich denke es sollte so aussehen.

Disallow: /ptopic
Disallow: /ntopic
Disallow: /fpost
Disallow: /uttopic
Disallow: /uptopic
Disallow: /newtopic
Disallow: /ftopic:oops:
Disallow: /wtopic


obwohl ich nicht verstehe warum du ftopic aussperren willst, das sind doch gerade die url's womit du google fuettern moechtest.
also wenn du das so eingibst, wuerde wohl das ganze forum gekickt.
und wenn google dann endlich deine robots.txt annimmt, dauert es etwa 24 stunden > dann ist der ganze rotz draussen.
aber wie gewarnt, falls du was kickst was du eigendlich drin haben moechtest.
dauert es ne weile bis es wieder drin ist.

obacht also.
gruss
mauri

robbelsche
PostRank 9
PostRank 9
Beiträge: 1053
Registriert: 09.09.2004, 00:34
Wohnort: Berlin

Beitrag von robbelsche » 09.03.2005, 14:15

mauri hat geschrieben:...dauert es ne weile bis es wieder drin ist.
...sie sagen 90 Tage, es können aber wohl auch 120 sein... :D

mgutt
PostRank 10
PostRank 10
Beiträge: 3206
Registriert: 08.03.2005, 13:13

Beitrag von mgutt » 10.03.2005, 17:17

die ftopic*.htm sollen natürlich erhalten bleiben!

ftopic*asc*.htm (gleiches thema nur anders sortiert) ist doppelter content... das sollte nur raus.
mauri hat geschrieben: wenn alles passt> gibst du ihm deine robots.txt zum kicken deiner seiten.
hier wird ein fehler erscheinen> er wird dir sagen das er deine $ zeichen nicht mag.
Tja, das mit den Dollarzeichen habe ich nur nach Anweisung gemacht *zularsneorüberschau* ;)

EDIT: Ok ich habe was gefunden, was eine sichere Quelle darstellen sollte 0X

https://www.google.com/robots.txt

EDIT2:

ich habe nur mal folgende Änderung durchgeführt:

Code: Alles auswählen

Disallow&#58; /ptopic
Disallow&#58; /ntopic
Disallow&#58; /fpost
Disallow&#58; /uttopic
Disallow&#58; /uptopic
Disallow&#58; /newtopic
Disallow&#58; /wtopic
mal sehen wie sich das auswirkt. bei einem großen forum habe ich das genauso vorgefunden.

EDIT3:

Was ich noch an doppelten bzw. 148-fachen !!!! Content gefunden habe:

https://www.google.de/search?q=maxrev+f ... 1&filter=0

Die sid's sind im Forum eigentlich deaktiviert, daher verstehe ich nicht wie Google trotzdem welche erhält.. können eigentlich nur von alten Links herrühren. Aber selbst wenn man den Link mit einer sid aufruft werden die nächsten Links alle "entsidded" :-?

EDIT4:

Ich habe vorsichtshalber das in die htaccess eingebaut, damit die Aliasdomains alle zu meiner Hauptdomain umgeschrieben werden:

Code: Alles auswählen

# change all urls to www.maxrev.de
RewriteEngine on

RewriteCond %&#123;HTTP_HOST&#125; !^www\.maxrev\.de$
RewriteRule ^&#40;.*&#41;$ http&#58;//www.maxrev.de/$1 &#91;L,R=301&#93;
Ich kaufe Dein Forum!
Kontaktdaten

shapeshifter
PostRank 9
PostRank 9
Beiträge: 1480
Registriert: 20.10.2004, 16:01

Beitrag von shapeshifter » 10.03.2005, 19:03

Uh oh - da freuen wir uns doch wieder auf 302-Links, wenn Google anfängt die robots.txt zu ignorieren ;)

mgutt
PostRank 10
PostRank 10
Beiträge: 3206
Registriert: 08.03.2005, 13:13

Beitrag von mgutt » 10.03.2005, 19:04

ich vermute eher, dass google seit kurzem alles listet, aber in den suchergebnissen nur das darstellt, was laut robots.txt erlaubt ist.
Ich kaufe Dein Forum!
Kontaktdaten

mgutt
PostRank 10
PostRank 10
Beiträge: 3206
Registriert: 08.03.2005, 13:13

Beitrag von mgutt » 11.03.2005, 11:00

ok, die robots.txt habe ich von Google abarbeiten lassen.

Tatsächlich sind jetzt alle Seiten, die vorher genervt haben weg.

Ein Phänomen, es werden nur noch zwei Ergebnisse angezeigt, weil der Rest wohl "ähnlich" ist :o

https://www.google.de/search?num=20&hl= ... v.de&meta=
Ich kaufe Dein Forum!
Kontaktdaten

mauri
PostRank 8
PostRank 8
Beiträge: 672
Registriert: 15.08.2003, 06:04
Wohnort: Wo es keinen Schnee gibt.

Beitrag von mauri » 14.03.2005, 08:18

mgutt, 2 ergebnisse angezeigt?
klick mal auf erweitert...
aber wie die sids dran kommen ist ein anderes prob.
weil das sollte dort nicht stehen> wuerde noch mal nachschauen, welchen mod du da eingebaut hast und ob andere den gleichen fehler haben und sehen, was sie taten.
viel erfolg

mgutt
PostRank 10
PostRank 10
Beiträge: 3206
Registriert: 08.03.2005, 13:13

Beitrag von mgutt » 22.03.2005, 13:21

jetzt sind es 35 ergebnisse.. der rest ist "ähnlich". wenn ich meine seiten mit anderen vergleiche merke ich, dass google bei den "ähnlichen" seiten im snippet nur meinen meta beschreibungstext darstellt. was ja dann darauf hindeutet, dass es dadurch zu den "ähnlichkeiten" kommt. vielleicht sollte ich diese kürzen oder wegstreichen.

die sids kann ich mir auch nicht sonderlich erklären. aber die seiten mit sids wurden nicht detailiert gelistet.

den zuvor 148-fachen Content konnte ich jetzt dadurch auf 78-fachen reduzieren:

https://www.google.de/search?q=maxrev+f ... N&filter=0

vielleicht sind die seiten schon vorher gespeichert worden, nur werden jetzt nicht mehr gelöscht :-?

wie kann ich denn mal total anonym testen als ob ich der googlebot wäre ob sids verteilt werden?
Ich kaufe Dein Forum!
Kontaktdaten

mauri
PostRank 8
PostRank 8
Beiträge: 672
Registriert: 15.08.2003, 06:04
Wohnort: Wo es keinen Schnee gibt.

Beitrag von mauri » 22.03.2005, 13:33

was willste die loeschen> das sind deine html seiten !
warum die sids dranhaengen....haste mal nachgeschaut, bei anderen die deinen mod drin haben?

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag