robots.txt wird ignoriert?

Beitrag von **mauri** » 22.03.2005, 13:47

mir scheint, du hast zwar html seiten > aber google bekommt immer noch seine sids, somit haut er immer auf die selbe seite> durch den sid, sieht er die selbe andauernd, aber mit immer anderen sids, somit spidert er sich dumm und daemlich an der einen seite.
dein mod ist nicht richtig installiert > schaetze du hast ein teilstueck vergessen und zwar google die sessions zu nehmen.
somit noch mal> ueberpruefe deinen mod, wie und was du installiert hast, schaue nach ob alles stimmt...

von **Anzeige von ABAKUS** »

Beitrag von **SM-Anfaenger** » 22.03.2005, 13:50

Ich habe es noch nie geschafft, daß Google wie gewünscht Seiten ignoriert

wird immer ausgegeben (zwar nur als URL, aber immerhin...)

Eigentlich alles easy HMTL! Wäre dankbar für Hinweise!

In der auszuschließenden Datei w*w.meine-domain.de/verboten1.htm steht bei mir :

<meta name="robots" content="noindex,follow"> oder auch mal
<meta name="robots" content="noindex">

zusätzlich im Rootverzeichnis die robots.txt mit z.B. folgendem Inhalt

User-agent: *
Disallow: /verboten1.htm
Disallow: /verboten2.htm

User-agent: ia_archiver
Disallow: /

User-Agent: Googlebot-Image
Disallow: /

User-agent: MSIECrawler
Disallow: /

User-agent: psbot
Disallow: /

User-agent: TurnitinBot
Disallow: /

Was ist daran falsch, es erscheint bei Google trotzdem
w*w.meine-domain.de/verboten1.htm in den Ergebnissen (nur die URL, kein TITLE etc.).
Ist die Regel, keine Ausnahme. Besonders häufig wohl bei kleineren Framesetteilen [Menüleiste o.ä.]

Beitrag von **mauri** » 22.03.2005, 14:08

SM-Anfaenger hat geschrieben:
User-agent: *
Disallow: /verboten1.htm
Disallow: /verboten2.htm

wo liegen denn deine "verboten" seiten?
im root? im folder /verboten ?

lesen:
https://www.searchengineworld.com/robot ... torial.htm
hope it helps

von **Anzeige von ABAKUS** »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:

einzigartige Texte
suchmaschinenoptimierte Inhalte
eine sinnvolle Content-Strategie
Beratung und Umsetzung

Jetzt anfragen: 0511 / 300325-0

Beitrag von **SM-Anfaenger** » 22.03.2005, 14:20

@mauri:
yepp, Root, also:
w*w.meine-domain.de/verboten1.htm
Ich bin echt ratlos...

Beitrag von **Southmedia** » 22.03.2005, 14:32

SM-Anfänger,

robots.txt verbietet das Spidern der Datei verboten1.htm. Google hat die Datei nicht gespidert, da sie jedoch auf einer anderen Seite verlinkt ist wurde die Datei in den Datenbestand aufgenommen. Das ist absolut korrekt so, sie taucht bei einer normalen Suche auch nicht auf die sie ja nicht angeschaut wurde vom Spider.

Das Problem ist also keines. Wenn du eine Seite verboten1.htm komplett nicht in den Datenbeständen haben willst musst du auch alle Seiten die auf die verboten1.htm verlinken aus dem Index heraushalten - sonst ist es logisch dass die URL der Suchaschine bekannt ist.

Beitrag von **larsneo** » 22.03.2005, 14:39

vielleicht in diese diskussion passend:
ich nutze folgende robots.txt in verbindung mit dem short url 'reloaded' mod um doppelten content möglichst zu vermeiden:

https://www.nubert-forum.de/robots.txt hat geschrieben:User-agent: msnbot
Crawl-Delay: 10

User-agent: Slurp
Crawl-Delay: 10

User-agent: Googlebot
Disallow: /*?

User-agent: *
Disallow: /nuforum/admin/
Disallow: /nuforum/album_mod/
Disallow: /nuforum/cache/
Disallow: /nuforum/db/
Disallow: /nuforum/docs/
Disallow: /nuforum/images/
Disallow: /nuforum/includes/
Disallow: /nuforum/language/
Disallow: /nuforum/mods/
Disallow: /nuforum/templates/
Disallow: /nuforum/xs_mod/
Disallow: /nuforum/album
Disallow: /nuforum/common
Disallow: /nuforum/extension
Disallow: /nuforum/faq
Disallow: /nuforum/groupcp
Disallow: /nuforum/login
Disallow: /nuforum/map
Disallow: /nuforum/memberlist
Disallow: /nuforum/modcp
Disallow: /nuforum/posting
Disallow: /nuforum/privmsg
Disallow: /nuforum/profile
Disallow: /nuforum/rating
Disallow: /nuforum/report
Disallow: /nuforum/search
Disallow: /nuforum/viewonline
Disallow: /nuforum/fpost
Disallow: /nuforum/ptopic
Disallow: /nuforum/ntopic
Disallow: /nuforum/post-

Beitrag von **mauri** » 22.03.2005, 14:43

muesste es dann nicht heissen:

User-agent: *
Disallow: verboten1.htm
Disallow: verboten2.htm
?

Beitrag von **larsneo** » 22.03.2005, 14:47

zum thema 'trailing slash' in der robots.txt

https://tool.motoricerca.info/robots-checker.phtml hat geschrieben:Since a missing trailing slash can be both a deliberate decision or an error, and since this tool can't ipotize the real intentions of the webmaster, here follow some clarifications that could prevent a potential problem:

The following command will disable just the directory "private" and all its contents:
Disallow: /private/

...while the following command will disable both the "private" directory and any file or directory path starting with the text "/private" (so "/private-eye.html", "/privateroom/page.html", etc.):
Disallow: /private

Beitrag von **mauri** » 22.03.2005, 14:51

This one bans keeps googlebot from getting at the cheese.htm file:

User-agent: googlebot
Disallow: cheese.htm

https://www.searchengineworld.com/robot ... torial.htm

Beitrag von **SM-Anfaenger** » 22.03.2005, 22:42

Danke für die Tips!

Der Slash am Anfang sollte aber kein Problem sein, ist ja auch eigentlich die korrekte absolute Referenzierung. Ich hätte eher Angst, daß es ohne nicht funktioniert...

Google selber verweist auf https://www.robotstxt.org/wc/norobots.html
und da ist auch sogleich das erste entspr. Bsp.

User-agent: *
..
Disallow: /foo.html

Wenn ich das richtig sehe, sind die eigentlich gesperrten Seiten wirklich erst dann bei Google zu sehen, wenn man sich weitere Seiten der Domain anzeigen läßt... Southmedia hat also Recht!
Trotzdem wäre es doch kein Problem für G**gle, die Anzeige solcher Seiten komplett zu unterlassen?!

Beitrag von **mgutt** » 23.03.2005, 00:45

mauri hat geschrieben: schaetze du hast ein teilstueck vergessen und zwar google die sessions zu nehmen.
somit noch mal> ueberpruefe deinen mod, wie und was du installiert hast, schaue nach ob alles stimmt...

der mod ist richtig installiert.

keiner sollte im forum sids bekommen. deswegen bin ich ja so verwundert.

so verstehe ich jedenfalls den entsprechenden code dazu:

Code: Alles auswählen

	if &#40; $userdata&#91;'session_user_id'&#93; != ANONYMOUS || $userdata&#91;'session_page'&#93; == -4 &#41;&#123; 
	   $SID = 'sid=' . $session_id; 
	&#125; else &#123; 
	   $SID = ''; 
	&#125;

Beitrag von **mgutt** » 23.03.2005, 00:52

mauri hat geschrieben:was willste die loeschen> das sind deine html seiten !
warum die sids dranhaengen....haste mal nachgeschaut, bei anderen die deinen mod drin haben?

Ich hatte da einen anderen Gedanken gehegt. Ich meinte das deswegen: Vielleicht hatte Google vor meiner Umstellung auf "NICHT-SIDs" und "Short-Urls" die SID Urls bereits drin á la "viewforum.php?sid=...." und nachdem Google den Link nochmal "kontrolliert" hatte hat er sie "umgeschrieben" auf die "Shorts". Daher dachte ich vielleicht.

Beitrag von **mauri** » 23.03.2005, 07:55

Ich hatte da einen anderen Gedanken gehegt. Ich meinte das deswegen: Vielleicht hatte Google vor meiner Umstellung auf "NICHT-SIDs" und "Short-Urls" die SID Urls bereits drin á la "viewforum.php?sid=...." und nachdem Google den Link nochmal "kontrolliert" hatte hat er sie "umgeschrieben" auf die "Shorts". Daher dachte ich vielleicht.

das kann ja nicht sein > weil die viewforum.phpsid... ja noch da ist, aber die haste nun gespeert, also schwenkt google nicht automatisch auf die html seite um und haengt en sid dran.

dein snip:

if ( $userdata['session_user_id'] != ANONYMOUS || $userdata['session_page'] == -4 ){
$SID = 'sid=' . $session_id;
} else {
$SID = '';
}

sagt mir nicht das nun google session frei ist, habe ihn anders in erinnerung, das halt google auch erwaehnt ist, moechte mir da aber nciht die finger verbrennen. da fast jeder einen anderen mod drin hat, abakus ist total anders als meiner, letzte woche hab ich nem freund eins installiert, das war wieder anders.
manche schmeissen > alle sessions raus> andere nur fuer bestimmte bots etc..., kommt immer drauf an.
aber wirkliche hilfe dafuer, bekommst du bestimmt bei denen, wo du den mod gezogen hast.
sorry, da kann ich wohl nicht viel weiter helfen.

dann zur robots.txt, nun ich selbst glaube nur noch das was google mir ausspuckt= schmeiss die robots.txt zum frass vor

gehe zu google https://services.google.com:8882/urlcon ... uestStatus melde dich dort an und loesche deine dateien mit der robots.txt file.
bitte gebe darauf acht, das du keine dateien damit kickst die du behalten moechtes, denn es kann monate dauern, bis er diese wieder aufnimmt.
also 5 mal ueberpruefen, dann siehst du aber, ob er deine gewuenschten seiten schmeisst und somit gewissheit hast, das deine robots.txt auch funzt.

gewuensche viel erfolg
gruss

Beitrag von **mgutt** » 23.03.2005, 22:11

naja dann müsste ich ja jede datei forum**.htm*** usw. einzeln kicken.

dann lieber die sids prüfen. ich habe auf der startseite mit der linkanzeige wer alles online ist.. aber da sehe ich nie einen mit sids.. verstehe das echt nicht.

ich habe gerade mit firefox alles deaktiviert.. plugins, java, js, cookies, alles geleert und die seite besucht.. ich bekomme einfach keine sids.. ist echt komisch.

EDIT:

Halt! Ich habe gerade was herausgefunden.. und zwar, wenn ich mich "Registriere" und dann auf "akzeptieren" gehe und dann wiederum ins forum zurückgehe, dann habe ich sids. aber kann google buttons anklicken?

Beitrag von **mgutt** » 04.04.2005, 10:26

mgutt hat geschrieben: den zuvor 148-fachen Content konnte ich jetzt dadurch auf 78-fachen reduzieren:

https://www.google.de/search?q=allinurl ... N&filter=0

stolz kann sein auf nur noch 34-fachen content

Google scheint wohl keine Sids mehr zu bekommen und löscht jetzt nach und nach die Seiten mit den Sids raus.

Leider verringert sich dadurch auch die Gesamtanzahl der gespeicherten Seiten. Verstehen tue ich das nicht, aber da wird mir sicher noch was für einfallen

Aber ich danke euch auf jedenfall für die ganzen Tipps. Es hat wunderbar funktioniert bisher.