Seitenreferenzen aus Webarchiv löschen lassen?

Beitrag von **Hobbytaucher** » 18.01.2007, 07:38

Guten Tag,

ich würde gerne wissen, ob es möglich ist, anhand einer robots textfile, die ich in das Verzeichnis meiner derzeitigen Homepage aufladen würde, meine alten Domains, die nicht mehr existieren, definieren könnte, so dass die archivierten Seiten dieser alten Domains wie zB in webarchiv.org gelöscht werden?

Auf der Seite von webarchiv.org habe ich folgenden Hinweis gefunden:

To exclude the Internet Archive’s crawler (and remove documents from the Wayback Machine) while allowing all other robots to crawl your site, your robots.txt file should say:

Code: Alles auswählen

User-agent&#58; ia_archiver
Disallow&#58; /

Gibt es noch andere Archive ausser webarchiv.org, die Webseiten archivieren?

Vielen Dank.

von **Anzeige von ABAKUS** »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002

persönliche Betreuung
individuelle Beratung
kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.

Beitrag von **seoes** » 18.01.2007, 10:39

Hobbytaucher hat geschrieben: Gibt es noch andere Archive ausser webarchiv.org, die Webseiten archivieren?

Da gibt es wohl zu viele von.
Den es gibt auch u.a. Dienste die Bilder(z.b. als Thumbnails) von der Seite erstellen und, und, und.

Daher ist es eigentlich nur ratsam, wenn man seine Seite in solche seriösen Dienste nicht haben möchte, das man im robots.txt erst die, für einen selber relevanten Bots direkt mit dem Namen anspricht (z.B. g00gelb0t) und zum Schluss:

Code: Alles auswählen

User-agent&#58; *
Disallow&#58; /

setzt.
Seriöse Dienste sprechen darauf an und indizieren, speichern, ... nichts von deiner Seite.

Beitrag von **Hobbytaucher** » 19.01.2007, 12:08

seoes hat geschrieben:
Code: Alles auswählen
User-agent&#58; *
Disallow&#58; /

Wenn man das in der robots.txt schreibt, dann werden doch alle bots ausgeschlossen, oder? Mir ging es zunächst mal nur um die, welche die Seiten archivieren.

Die andere Frage war, ob es möglich ist, die robots.txt so zu schreiben/definieren, dass bereits veraltete und nicht mehr existente Seiten aus den Archiven gelöscht werden, wenn man die Datei dann in einem existierenden Stammverzeichnis einer Domain auflädt.

Beitrag von **chrizz** » 19.01.2007, 12:18

es werden die bots ausgeschlossen, die sich an die robots.txt halten.
allen anderen ist das wohl eher egal...