Seite 1 von 2

Nicht indexierte Seiten finen

Verfasst: 29.08.2013, 23:04
von Slind
Guten Tag zusammen,

da Webmaster Tools leider nicht anzeigt welche Seiten genau noch nicht indexiert sind suche ich nach einem welches dies übernimmt. Kennt ihr eins?
Die 20 Seiten varianten helfen mir hierbei nicht.

Verfasst:
von
SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Verfasst: 29.08.2013, 23:11
von Stelufl
Das würde mich auch mal interessieren

Verfasst: 29.08.2013, 23:25
von hanneswobus
ich habe mal vor ewigen zeiten so etwas programmiert (lernt mal das programmieren ... hach!), vielleicht finde ich die tage zeit und sichte die quellcodes - was muss denn euer (traum)spielzeug denn neben den ueblichen features wie indexcheck u. sitemapcrawler beinhalten?

Verfasst: 29.08.2013, 23:28
von Stelufl
ich kann auch programmieren. :cry:

Also ich hätte gerne einen 1-Button-Everything-Optimizer! Geht das?? Ja?? Wie das dauert 2 Jahre und soll 200.000 Kosten! Ne dann will ich das doch nicht. Programming in a nutshell!

Verfasst: 29.08.2013, 23:47
von hanneswobus
hehehehehehehehehehe

nein ... das geht leider nicht. :D :D

Verfasst: 30.08.2013, 14:18
von Slind
das wäre genial wenn du sowas machen würdest.

Für mich müsste es folgendes Unterstützen:
ssl support
normal .xml
gezipte xmls (xml.gz)
verlinkte sitemaps in sitemaps (z.B. https://mineyourmind.de/forum/sitemap/sitemap.xml.gz)
exportieren der nicht indexierten und indexierten seiten als csv oder txt

Und dann halt der Index Check. Wenn du genug Zeit und lust hast wäre ein Support für Bing, Yahoo, duckduckgo.... noch super.
Vielleicht auch Proxy Unterstützung, kA wieviele Abfragen google zulässt.

Wobei, wäre dies mit Scrapebox möglich ?

Verfasst: 30.08.2013, 14:32
von Slind
ich hab grad nen bissl mit Scrapebox rum probiert. Es gibt zwar einen Sitemap grabber aber dieser kommt leider nicht mit https und auch nicht mit .xml.gz klar.

Den Index kann man ja überprüfen, man bräuchte also eigentlich nur ein Tool welches die ganzen urls aus den sitemaps zieht.

edit: vergesst diesen post, scrapebox steigt bei https komplett aus.

Verfasst: 08.09.2013, 17:43
von Slind
Gibt es schon was neues ?

Verfasst: 08.09.2013, 17:49
von hanneswobus
slind,

sorry dass ich dein post erst jetzt sehe. wenn du mir ein paar beispielsitemaps zur verfuegung stellst, kann ich gern schauen, ob MEIN sitemapscraper-algo deine daten zieht.

einen standalone-scraper habe ich nicht, ich scrape die sitemaps nur bei einer anderen applikation. kannst du programmieren?

gruß

Verfasst: 08.09.2013, 18:32
von Slind
So sehen meine Sitemaps auch aus.
https://talkgeek.net/sitemap/sitemap.threads.1.xml.gz

Nein programmieren kann ich nicht. Nach CSS und nen bissl php hört mein können schon auf.

Verfasst: 08.09.2013, 18:35
von hanneswobus
ah okay. mein algo kann sich deine urls ziehen, allerdings nur wenn die sitemaps nicht gepackt sind.

gruß

Verfasst: 08.09.2013, 19:01
von Slind
super, an sich würde es schon reichen wenn er sie in eine txt schön untereinander gelistet exportieren könnte, so dass sie scrapebox gut fressen kann. Wäre das möglich? Hat dein algo Probleme wenn die XML Datei entpackt 80 MB hat ?

Wie sieht es mit Sitemaps aus die weitere Sitemaps enthalten ?
https://talkgeek.net/sitemap/sitemap.xml.gz

Verfasst: 08.09.2013, 19:06
von hanneswobus
noe. probleme duerfte es nicht geben. es dauert dann halt nur extrem lang, aus einer 80mb großen datei die infos zu ziehen ... ;-)

mein algo verlangt den direkten pfad zur sitemap. sammlungen vieler sitemaps werden (aktuell) nicht eingelesen.

gruß.

Verfasst: 08.09.2013, 19:29
von Slind
das ist schade. Die werden extra in einzelne sitemaps unterteilt damit sie google besser frisst.

Verfasst: 08.09.2013, 19:33
von hanneswobus
mh. das ist richtig. ich brauchte diese variante in meinen anwendungsfaellen nur noch nie. vielleicht kuemmere ich mich zeitnah um dieses problem. wieviele ebenen verschachtelst du bei deinen sitemaps?