Seite 1 von 1

Komische Links verursachen Crawling Fehler

Verfasst: 11.05.2013, 10:17
von Noerdsteil
Hallo zusammen,
bin ganz neu hier und auch recht neu im Thema SEO.
Hab gerade meine eigene Seite mit Google Webmaster Tools konfiguriert. Sitemap usw. eingetragen und gewartet.
Mit dem Hinweis, dass ich mir die indexierten Seiten über site:mysiteexample.com ansehen kann, hab ich das auch gemacht. Resultat waren sehr komische Links, die ich nicht kenne und natürlich einen 404 verursachen.
Dann hat Google meine Seite indexiert und dabei diese Ergebnis an Crawling Fehlern aufgelistet:

1
export/aswad-city-lock
404
08.05.13

2
export/drughi-bianconeri
404
08.05.13

3
export/sahar-abedi
404
08.05.13

4
export/coast-wedding-bands
404
08.05.13

5
export/cartier-ring
404
08.05.13

...

Davon gibt es 38?

Wie kann das sein, dass irgendwelche Links auf meine Domain im Index landen? Muss ich diese nun alle händisch entfernen?

Danke für jegliche Hilfe, bzw. Links für weiterführende Infos.

Verfasst:
von

Verfasst: 11.05.2013, 10:25
von Kristian
Hallo,

bist du sicher, dass es sich um externe Links handelt?
Ev. willst du ja eigenen Müll entfernen.
Schwer zu sagen, wenn man die Domain nich kennt und die Seiten nicht geprüft hat.

Gruß
Kristian

Verfasst: 13.05.2013, 18:16
von Noerdsteil
Hi,
danke für deine Antwort.
Es handelt sich nicht um externe Links, sonder um Links, die auf Seiten meiner Domain zeigen,dann aber als 404 angezeigt werden.
Und ich bin ganz sicher, dass diese URLs nie existiert haben.

Wie kann es sein, dass google solche URLs in seiner Abfragen hat.
Hier ein Beispiel:

https://schweizer-*****.de/export/london-france-italy

Verfasst:
von

Verfasst: 13.05.2013, 20:29
von Melegrian
Noerdsteil hat geschrieben:Wie kann es sein, dass google solche URLs in seiner Abfragen hat.
Hier ein Beispiel:

"https://schweizer-******.de/export/london-france-italy"
Wenn ich mit site:schweizer-jonas.de suche und mir die übersprungenen Ergebnisse mit anzeigen lasse, so kommen um die 90 Ergebnisse mit export, immer mit dem Hinweis:
Aufgrund der robots.txt dieser Website ist keine Beschreibung für dieses Ergebnis verfügbar.
Doch wenn ich solche Links finde, dann wundert mich der Rest auch nicht mehr:

Code: Alles auswählen

<a href="http&#58;//www.*****-schweizer.de &#40;Mailz halt bei Fragen&#41;" target="_blank">

Verfasst: 14.05.2013, 07:38
von Noerdsteil
Hm,
d.h. du weißt auch nicht, wie die Links entstehen.

Und weil ich einen falschen Link im meinem Quellcode habe, ist es dir auch nicht wert weiter zu suchen?

Verfasst: 14.05.2013, 09:21
von Kristian
Hallo,

wie die Links entstanden sind lassen wir mal offen.
Kann es ev. sein, dass du anfangs mit einem Template experimentiert hast, in dem es um Musik ging?
Mir scheint du hast die robots.txt mitlerweile auf Grund des Hinweises von Melegrian geändert?
Wenn du sowas sagen würdest müssten nicht andere nochmal sinnfrei danach gucken.

Gruß
Kristian

Verfasst: 14.05.2013, 12:28
von Noerdsteil
Hi,
danke für eure Hinweise.

Die robots.txt wurde nicht geändert, sonder ist automatisch von Wordpress generiert (virtuell)?

Ich habe bisher keine weiteren Blogs auf der Domain laufen gehabt.
Ich schließe aus euren Nachfragen, dass ihr auf jeden Fall davon überzeugt seid, dass ich selbst diese Links generiert habe, richtig? In dem Fall wüsste ich zwar gerne wie, bisher fällt mir keine Lösung ein.

Zu meiner zweiten Fragen: Wie kann ich all diese Links aus dem Index bekommen?

@Melegrian: wo hast du den Snippet gefunden:

Code: Alles auswählen

<a href="http&#58;//www.jonas-schweizer.de &#40;Mailz halt bei Fragen&#41;" target="_blank">

Verfasst: 14.05.2013, 12:33
von Kristian
Hallo,

wenn G. sagt" gesperrt durch robots.txt" dann war es wohl mal so.
Da es im Moment keine Sperrung gibt wird G. die 404er finden und aus dem Index nehmen, das dauert aber ein bisschen.

Hast du die Domain ev. gerade erst gereggt?
Mir kommt der Gedanke, dass früher mal solcher Kontent drauf gewesen sein könnte.

Gruß
Kristian

Verfasst: 14.05.2013, 13:25
von Noerdsteil
HI,
neine die Domain ist schon länger registiert.
Also, verstehe ich dich richtig: Irgendwie sind URLs in den Index gekommen, waren aber durch eine robots.txt gesperrt. Da Wordpress jetzt die robot.txt übernimmt, sind sie nicht mehr gesperrt?

Warum werden sie jetzt von google automatisch entfernt?

Verfasst: 14.05.2013, 13:30
von Kristian
Hallo,
Noerdsteil hat geschrieben:HI,
neine die Domain ist schon länger registiert.
Also, verstehe ich dich richtig: Irgendwie sind URLs in den Index gekommen, waren aber durch eine robots.txt gesperrt. Da Wordpress jetzt die robot.txt übernimmt, sind sie nicht mehr gesperrt?

Warum werden sie jetzt von google automatisch entfernt?
In deiner robots.txt steht derzeit:

Code: Alles auswählen

User-agent&#58; *
Disallow&#58; /wordpress/wp-admin/
Disallow&#58; /wordpress/wp-includes/
damit ist der Pfad "/export/..:" nicht mehr verboten.
Somit kann G. die Seiten jetzt aufrufen und feststellen, dass es sich um 404er handelt.
Das war nicht der Fall, als "/export/..:" verboten war.

Gruß
Kristian

Verfasst: 14.05.2013, 21:26
von Melegrian
Noerdsteil hat geschrieben:@Melegrian: wo hast du den Snippet gefunden:
Mein Fehler, weiß auch nicht, warum Google mir dieses Ergebnis gestern lieferte, da ist ein Dreher im Namen enthalten und der fiel mir erst heute auf.
Wenn ich nach "schweizer-jonas.de" suche, so liefert Google aber zum Beispiel auch diese Treffer und noch ein oder zwei mehr, da wird es wohl herkommen (***** für jonas):
&#54644;&#54588;&#50836;&#50577;&#48372;&#54840;&#49324;
www.&#48372;&#54840;&#49324;.com/?...7...&#8206;Diese Seite übersetzen
Gambar Lucu atau Foto Lucu ini didedikasikan untuk anda yang gemar , <a href=https://schweizer-*****.de/export/indian-third-gender>indian third gender</a> ...

&#1050;&#1072;&#1090;&#1072;&#1083;&#1086;&#1075; &#1082;&#1072;&#1092;&#1077; &#1080; &#1088;&#1077;&#1089;&#1090;&#1086;&#1088;&#1072;&#1085;&#1086;&#1074; &#1050;&#1072;&#1079;&#1072;&#1085;&#1080;
www. ****** .net/index.php?page...&#8206;Diese Seite übersetzen
Products 1 - 14 of 14 – &#1074;&#1026;“ Qualifications for President include being 35 , <a href=https://schweizer-*****.de/export/jewish-avatar>jewish avatar</a> , I'm guessing ...
Setzt mal drei Links zu Deiner Seite, so doll scheint es damit noch nicht bestellt zu sein. Habe meine jetzt mit ***** geändert, ändere mal den einen von Dir auch noch. Besorge Dir paar gute Links und leite dann export per htaccess auf eine Auffangseite um.

Wenn Du Dir den Cache der Seiten anzeigen lässt, so findest Du noch zwei oder drei der spammigen Einträge, dass die von einem Spambot kamen, ist zumindest offensichtlich.

Verfasst: 15.05.2013, 10:27
von Noerdsteil
Danke für diese Hinweise.
Jetzt weiß ich schon etwas mehr, wie ich vorgehen kann.

Verfasst: 15.05.2013, 10:36
von mtx93
Ähnliche Links kommen auch oft von Baidu.

Was die China SE damit macht, hab ich nie verstanden, aber periodisch kommen da oft ganz seltsame URLs rein.