Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Robots sollen nur thread*.html spidern

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Neues Thema Antworten
Majora
PostRank 4
PostRank 4
Beiträge: 130
Registriert: 27.03.2005, 11:47

Beitrag von Majora » 10.06.2005, 18:25

Hallo,
ich habe mein Foru vor kurzem nach dieser Anleitung hier optimiert: https://www.daniweb.com/techtalkforums/thread9379.html
Nun ist mein Forum so optimiert, wie das Forum von daniweb.com, sogar das Archiv ist gleich.

Nun zu einem Problem, welches mein FOrum von dem von daniweb unterscheidet.

Wenn bei gogle nachschaut, welche Seiten der google Spider von mir und von daniweb gespidert hat, sieht man, dass der Spider bei daniweb nur Threads mit Endungen thread***.html aufnimmt.

Bei mir nimmt der Spider zwar auch Threads mit dieser Endung auf, jedoch auch Threads mit der Endung lastpostinthread**.html und newpostinthread**.html.

Woran liegt das? Kann man irgendwie verhindern, dass der Spider die Seiten mit der Endung lastpostingthread**.html und newpostinthread**.html aufnimmt.

Ich bin für jede hilfreiche Antwort dankbar.

Mein FOrum: https://www.schachfeld.de/

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Chris2005
PostRank 9
PostRank 9
Beiträge: 1284
Registriert: 14.04.2005, 23:58

Beitrag von Chris2005 » 10.06.2005, 18:29

Code: Alles auswählen

Robots.txt

User-agent: Googlebot
Disallow: /*?
Disallow: lastpost
Disallow: newpost
Disallow: ...

User-agent: *
Disallow: lastpost
Disallow: newpost
Disallow: ...
Es ist ne ganze Menge, die da ausgeklammert werden muss. Neuer Post, Forum als gelesen markieren, Boarduser, FAQ, online-user, Kalender, Suchfunktion etc.

Majora
PostRank 4
PostRank 4
Beiträge: 130
Registriert: 27.03.2005, 11:47

Beitrag von Majora » 11.06.2005, 18:12

Chris2005 hat geschrieben:

Code: Alles auswählen

Robots.txt

User-agent: Googlebot
Disallow: /*?
Disallow: lastpost
Disallow: newpost
Disallow: ...

User-agent: *
Disallow: lastpost
Disallow: newpost
Disallow: ...
Es ist ne ganze Menge, die da ausgeklammert werden muss. Neuer Post, Forum als gelesen markieren, Boarduser, FAQ, online-user, Kalender, Suchfunktion etc.

Muss hinter lastpost und nepost kein .php oder geht das auch ohn das

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Chris2005
PostRank 9
PostRank 9
Beiträge: 1284
Registriert: 14.04.2005, 23:58

Beitrag von Chris2005 » 11.06.2005, 23:31

nein. Google ignoriert alles, was mit lastpost bzw. newpost etc. anfängt. Das ist aber wie gesagt nicht alles. Guck mal bei Dir im Forum, was duplicate content erzeugen kann. Alles das muss ausgeklammert werden. Im Endeffekt darf Google bzw. der Rest nur die verschiedenen Foren-Indizes und die Threads spidern. mehr nicht.

Majora
PostRank 4
PostRank 4
Beiträge: 130
Registriert: 27.03.2005, 11:47

Beitrag von Majora » 12.06.2005, 10:28

Danke, es hat jetzt funktioniert. :D
Jetzt spidert er nur noch Threads und die Foren.
Anderes von meinem FOrum muss ich noch aussperren

Chris2005
PostRank 9
PostRank 9
Beiträge: 1284
Registriert: 14.04.2005, 23:58

Beitrag von Chris2005 » 12.06.2005, 12:01

Hi Majora,

Prima. Allerdings vier Anmerkungen:

- Deine Domain ist unter www.schachfeld.de und schachfeld.de erreichbar. Du solltest eine Standarddomain definieren, so dass eine Adresse auf die andere umgeleitet wird. Hier gibt es den passenden Thread dazu.

- Du hast in Deiner Robots.txt eine Rubrik "evil bots". Ein Teil der dort gelisteten Bots respektiert die robots.txt (z.B. Googlebot Image, Ask Jeeves etc.) Ein Grossteil allerdings ignoriert diese. Da hilft nur Ausperren per .htaccess. Infos gibt es in diesem Thread

- Du solltest zur Sicherheit noch ein / (d.h. /lastpost) vor die Dateinamen setzen. Bin mir nicht sicher, ob es notwendig ist, aber so ist es syntakisch korrekter. War eine Unsauberkeit von mir.

- Du solltest Deine robots.txt etwas "sortieren". Könnte mir vorstellen, dass der eine oder andere Bot durcheinanderkommt. bzw. Google ingoriert (sobald er eine Rubrik für sich gefunden hat) alle anderen Direktiven. Des weiteren solltest Du beim Googlebot noch Disallow: /*? hinzufügen, damit Google den dynamischen URls nicht mehr folgt. Du hast noch jede Menge DC (siehe hierin den SERPs, und mit diesem Tag verschwindet der langfristig. Allerdings unterstützt nur Google den Parameter /*? .

Code: Alles auswählen


User-agent: Googlebot
Disallow: /*?
Disallow: /lastpost
Disallow: /newpost
Disallow: /showthread
Disallow: /forumdisplay
Disallow: /images/
Disallow: /report.php
Disallow: /printthread.php
Disallow: /usercp.php
Disallow: /register.php
Disallow: /memberlist.php
Disallow: /calendar.php
Disallow: /misc.php
Disallow: /member.php
Disallow: /search.php
Disallow: /showgroups.php
Disallow: /impressum.html

User-agent: *
Disallow: /lastpost
Disallow: /newpost
Disallow: /showthread
Disallow: /forumdisplay
Disallow: /images/
Disallow: /report.php
Disallow: /printthread.php
Disallow: /usercp.php
Disallow: /register.php
Disallow: /memberlist.php
Disallow: /calendar.php
Disallow: /misc.php
Disallow: /member.php
Disallow: /search.php
Disallow: /showgroups.php
Disallow: /impressum.html

Hier folgt dann der Rest

Majora
PostRank 4
PostRank 4
Beiträge: 130
Registriert: 27.03.2005, 11:47

Beitrag von Majora » 12.06.2005, 15:07

Chris2005 hat geschrieben:Hi Majora,

Prima. Allerdings vier Anmerkungen:

- Deine Domain ist unter www.schachfeld.de und schachfeld.de erreichbar. Du solltest eine Standarddomain definieren, so dass eine Adresse auf die andere umgeleitet wird. Hier gibt es den passenden Thread dazu.

- Du hast in Deiner Robots.txt eine Rubrik "evil bots". Ein Teil der dort gelisteten Bots respektiert die robots.txt (z.B. Googlebot Image, Ask Jeeves etc.) Ein Grossteil allerdings ignoriert diese. Da hilft nur Ausperren per .htaccess. Infos gibt es in diesem Thread

- Du solltest zur Sicherheit noch ein / (d.h. /lastpost) vor die Dateinamen setzen. Bin mir nicht sicher, ob es notwendig ist, aber so ist es syntakisch korrekter. War eine Unsauberkeit von mir.

- Du solltest Deine robots.txt etwas "sortieren". Könnte mir vorstellen, dass der eine oder andere Bot durcheinanderkommt. bzw. Google ingoriert (sobald er eine Rubrik für sich gefunden hat) alle anderen Direktiven. Des weiteren solltest Du beim Googlebot noch Disallow: /*? hinzufügen, damit Google den dynamischen URls nicht mehr folgt. Du hast noch jede Menge DC (siehe hierin den SERPs, und mit diesem Tag verschwindet der langfristig. Allerdings unterstützt nur Google den Parameter /*? .

Code: Alles auswählen


User-agent: Googlebot
Disallow: /*?
Disallow: /lastpost
Disallow: /newpost
Disallow: /showthread
Disallow: /forumdisplay
Disallow: /images/
Disallow: /report.php
Disallow: /printthread.php
Disallow: /usercp.php
Disallow: /register.php
Disallow: /memberlist.php
Disallow: /calendar.php
Disallow: /misc.php
Disallow: /member.php
Disallow: /search.php
Disallow: /showgroups.php
Disallow: /impressum.html

User-agent: *
Disallow: /lastpost
Disallow: /newpost
Disallow: /showthread
Disallow: /forumdisplay
Disallow: /images/
Disallow: /report.php
Disallow: /printthread.php
Disallow: /usercp.php
Disallow: /register.php
Disallow: /memberlist.php
Disallow: /calendar.php
Disallow: /misc.php
Disallow: /member.php
Disallow: /search.php
Disallow: /showgroups.php
Disallow: /impressum.html

Hier folgt dann der Rest

OK, ich habe jetzt alles gemacht, was du gepostet hast. Leider spidert google noch immer lastpostinthread und newpostinthread ohne auf die robots.txt zu achten. Was mache ich falsch? Muss ich doch den Schrägstrich vor den verschiedenen URLS weglassen?

Chris2005
PostRank 9
PostRank 9
Beiträge: 1284
Registriert: 14.04.2005, 23:58

Beitrag von Chris2005 » 12.06.2005, 15:57

Majora hat geschrieben:OK, ich habe jetzt alles gemacht, was du gepostet hast. Leider spidert google noch immer lastpostinthread und newpostinthread ohne auf die robots.txt zu achten. Was mache ich falsch? Muss ich doch den Schrägstrich vor den verschiedenen URLS weglassen?
hmm. Wundert mich ehrlich gesagt. :silly: Bei mir funktioniert das wunderbar.

Bist Du sicher, dass der Bot sich das nicht doch noch durch irgendeine nicht umgeschrieben URL reinzieht? Es sind immer noch ein URLs bei Dir auf der Seite nicht umgeschrieben. Guck z.B. mal Hier. Bei Ähnliche Themen taucht wieder die showthread.php auf.

Code: Alles auswählen

 Auszug aus Robots.txt

User-agent: Googlebot
Disallow: /*?
Disallow: /fpost
Disallow: /ptopic
Disallow: /ntopic
etc...
Die eigentliche URL lautet z.B. fpost39.html und wird nicht gespidert. Bei mir sind nur die einzelnen Posts und die Foren im Index. Der Rest taucht nicht auf und wird ignoriert. Sowohl bei Google, als auch bei MSN. Über Yahoo! kann ich noch nix sagen, da sich Yahoo! ein bisschen schwer mit Subdomains tut :-?

Vielleicht muss doch der gesamte Dateinamen angegeben werden (d.h. es wird nur die Nummer ignoriert). Dann ersetze doch das Disallow: /lastpost durch Disallow: /lastpostinthread .

Noch eine Anmerkung: Nur Google unterstützt den Parameter mit dem ? d.h. in der Sektion mit dem User-agent: * muss das Disallow: /*? wieder weg.

Berichte mal, wie sich das weiterentwickelt.

Majora
PostRank 4
PostRank 4
Beiträge: 130
Registriert: 27.03.2005, 11:47

Beitrag von Majora » 12.06.2005, 19:46

Ich habe die zwei Anhänge vom folgendem Thread heruntergeladen: https://www.daniweb.com/tutorials/tutorial22840.html

Die xml Datei ist eine Datei in der die Inhalte der geänderten Templates von daniweb aufgelistet sind. Ich habe jetzt meine Templates auch geändert. Nun sind meine gesammten Templates genau gleich, wie die von danweb. Folglich sind auch die Links jetzt alle gleich.

Jetzt muss ich nur noch die Robots aus den showthreads, lastpostingthread, newpostingthread... ausschliesen, was aber irgendwie nicht klappt. Die Spider halten sich irgendwie nicht an die robots.txt.

Woran liegt das? Habe ich in der robots.txt irgendetwas falsch hineingeschrieben?

Chris2005
PostRank 9
PostRank 9
Beiträge: 1284
Registriert: 14.04.2005, 23:58

Beitrag von Chris2005 » 12.06.2005, 20:32

Mit VBulletin kenne ich mich leider nicht aus. Ich kenne das Bulletin zwar, aber ich denke mal die Modifikationen sollten so ähnliche laufen wie bei PHPBB. Ich selber habe PHPBB in Betrieb und die Modifikationen von Larsneo (liesst auch hier im Forum mit) implementiert.

Die Mod scheint nicht alles umzuschreiben. So taucht bei den Unterforen "Schach" wieder das "forumdisplay.php" auf. Aber das ist ja auch kein Problem. Der Bot sollte die Bereiche trotzdem spidern. Dauert halt nur was länger.

Woran siehst Du so schnell, dass die Bots sich nicht dran halten? kommen die so häufig bei Dir?

Ich würde vor alle Dateinamen ein / setzen. Denn das entspricht ja auch der tatsächlichen Position.

Unter https://tool.motoricerca.info/robots-checker.phtml kannst Du Deine robots.txt validieren lassen.

Ich schlage vor, dass Du das erstmal ein paar Tage so laufen lässt. Und dann muss man weiter sehen.

Majora
PostRank 4
PostRank 4
Beiträge: 130
Registriert: 27.03.2005, 11:47

Beitrag von Majora » 13.06.2005, 16:11

Juhu, es scheint, als ob der google Bot jetzt nur noch thread*.html spidert. Ich habe ja jetzt meine Templates angepasst. Nun sind meine URL's gleich die von https://www.daniweb.com/techtalkforums/

Google kommt jetzt nicht mehr über forumdisplay und showthread zu den einzelnen Threads. :)
https://gif.250kb.de/96a77bbae0c934117e ... 2b7f7c.gif


Einfach nur cool und traumhaft. :D

Melegrian
PostRank 10
PostRank 10
Beiträge: 3170
Registriert: 30.01.2005, 12:36

Beitrag von Melegrian » 08.07.2005, 13:20

Hallo,

komme mit den Schreibweisen für eine Robots.txt nicht so recht klar, möchte deshalb nicht extra einen neuen Thread anfangen, so stelle ich meine Fragen mal hier und bei mir würde es etwa so wie nachfolgend aussehen. Die Threads sind nicht schlecht gelistet, doch zuviel Double Content.

Erstes Beispiel, diese Seiten sind völlig identisch, bis auf die id=1 bis ... (z.Z. 14) und genauso oft auch im Index von Google zu finden. Sollten somit raus.

/forum/index.php?faction=formmail&target_id=14

Diese könnten jedoch von mir aus im Index bleiben.

/forum/index.php?faction=profile&profile_id=8

Diese sollten raus,

/forum/index.php?mode=viewthread&forum_id=6&thread=1&z=last

und diese müssen bleiben.

/forum/index.php?mode=viewthread&forum_id=6&thread=1

Wie könnte dies nun in einer Robots.txt aussehen?


Dann hätte ich noch eine andere Frage. Bei vielen Weblogs wie blogg.de kommen auch auf jeden Artikel 4 bis 7 Müllseiten mit Double Content, teilweise schon durch die Archive bedingt. Dennoch hat es scheinbar keine negativen Auswirkungen und nach einiger Zeit verringert sich die Zahl der indexierten Seiten in Google wieder von allein. Beim Forum ist das Verhältnis Müllseiten mit Double Content zu Threads eher noch höher, negative Auswirkungen kann ich jedoch bislang keine feststellen. Kann denn hier jemand wirklich sicher behaupten, dass sich die Positionen der Threads in den Serps in Abhängigkeit durch Reduzierung bzw. auch umgekehrt durch Zunahme von Double Content, sich wesentlich änderte?

Oder ist es nicht ganz einfach so, das Google da von allein aufräumt, die eigentlichen Threads stehen lässt und nur den Double Content aus dem Index verbannt, ohne dabei den Rest der Domain gleich abwertend einzustufen? Schließlich gibt es doch jede Menge an Foren oder Weblogs, deren Inhaber noch nie den Begriff SEO hörten und deshalb auch nicht abgewertet wurden oder werden.


MfG Melegrian
Scripts und Plugins für Cookie-Hinweise

Majora
PostRank 4
PostRank 4
Beiträge: 130
Registriert: 27.03.2005, 11:47

Beitrag von Majora » 08.07.2005, 13:27

Melegrian hat geschrieben:Hallo,

komme mit den Schreibweisen für eine Robots.txt nicht so recht klar, möchte deshalb nicht extra einen neuen Thread anfangen, so stelle ich meine Fragen mal hier und bei mir würde es etwa so wie nachfolgend aussehen. Die Threads sind nicht schlecht gelistet, doch zuviel Double Content.

Erstes Beispiel, diese Seiten sind völlig identisch, bis auf die id=1 bis ... (z.Z. 14) und genauso oft auch im Index von Google zu finden. Sollten somit raus.

/forum/index.php?faction=formmail&target_id=14

Diese könnten jedoch von mir aus im Index bleiben.

/forum/index.php?faction=profile&profile_id=8

Diese sollten raus,

/forum/index.php?mode=viewthread&forum_id=6&thread=1&z=last

und diese müssen bleiben.

/forum/index.php?mode=viewthread&forum_id=6&thread=1

Wie könnte dies nun in einer Robots.txt aussehen?


Dann hätte ich noch eine andere Frage. Bei vielen Weblogs wie blogg.de kommen auch auf jeden Artikel 4 bis 7 Müllseiten mit Double Content, teilweise schon durch die Archive bedingt. Dennoch hat es scheinbar keine negativen Auswirkungen und nach einiger Zeit verringert sich die Zahl der indexierten Seiten in Google wieder von allein. Beim Forum ist das Verhältnis Müllseiten mit Double Content zu Threads eher noch höher, negative Auswirkungen kann ich jedoch bislang keine feststellen. Kann denn hier jemand wirklich sicher behaupten, dass sich die Positionen der Threads in den Serps in Abhängigkeit durch Reduzierung bzw. auch umgekehrt durch Zunahme von Double Content, sich wesentlich änderte?

Oder ist es nicht ganz einfach so, das Google da von allein aufräumt, die eigentlichen Threads stehen lässt und nur den Double Content aus dem Index verbannt, ohne dabei den Rest der Domain gleich abwertend einzustufen? Schließlich gibt es doch jede Menge an Foren oder Weblogs, deren Inhaber noch nie den Begriff SEO hörten und deshalb auch nicht abgewertet wurden oder werden.


MfG Melegrian
Nehme doch wenigstens ein phpbb-Forum.
Es ist nicht möglich dein Tritanium Bulletin Board suchmaschinenfreundlich zu gestalten.
Über phpbb gibt es schon viele Tutorials, wie du dein Forum suchmaschinenfreundlich gestalten kannst.

Dann können wir auch über die robots.txt reden.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag