Seite 1 von 1

Crawlen: wie wirkl. 100% erkennen ob Verzeichnis oder Datei?

Verfasst: 27.08.2005, 09:46
von Airport1
man kann ja bekanntlich so verlinken:

www.domain.tld/verzeichnis
aber auch
www.domain.tld/verzeichnis/
was eigentlich richtiger waere.

Nun mal folgender Fall:

auf
www.domain.tld/verzeichnis
wird bspw. relativ "hase.htm" verlinkt.
Nun koennte die absolute URI lauten:

www.domain.tld/verzeichnis/hase.htm

waere aber falsch wenn es sich bei /verzeichnis
tatsaechlich nicht um ein Verzeichnis sondern um eine Datei handeln wuerde, dann waere richtiger:

www.domain.tld/hase.htm

Wie bekomm ich nun raus ob die Vater URL am Ende ein Verzeichnis oder eine Datei ist? Reicht hier WIRKLICH WIRKLICH WIRKLICH nur nachzugucken ob ein Punkt bis zum ersten Auftreten von hinten eines / vorkommt?

Also fuer die Verlinkung von "hase.htm"

fuer www.domain.tld/verzeichnis -> www.domain.tld/verzeichnis/hase.htm

fuer www.domain.tld/seite.htm -> www.domain.tld/hase.htm
(da von rechts her gesehen ein Punkt bis zum Slash auftritt)

Vielleicht denk ich auch nur wieder zu kompliziert ;)

Verfasst:
von

Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Crawlen: wie wirkl. 100% erkennen ob Verzeichnis oder Datei?

Verfasst: 27.08.2005, 12:50
von moviemazler
Hi Airport1,

wenn ich Dich richt verstanden habe, dann gibt folgendes ein Problem:

www.domain.tld/verzeichnis.nochwas/index

aber dann ein problem, denn /verzeichnis.nochwas/ ist ja wirklich ein Verzeichnis und keine Datei.

Gruß Markus

Crawlen: wie wirkl. 100% erkennen ob Verzeichnis oder Datei?

Verfasst: 27.08.2005, 14:38
von Airport1
Ne, er wuerde ja von rechts nach links bis zum allerersten / suchen, und dann gucken ob darin ein Punkt enthalten ist, d.h. wuerde hier fuer einen relativen link home.htm z.b. aus

www.domain.tld/verzeichnis.nochwas/index
(eigentlich so korrekter: www.domain.tld/verzeichnis.nochwas/index/)

machen:

www.domain.tld/verzeichnis.nochwas/index/home.htm

weil index ja offensichtlich (es fehlt ein punkt) ein verzeichnis und keine datei ist.

Verfasst:
von
Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Crawlen: wie wirkl. 100% erkennen ob Verzeichnis oder Datei?

Verfasst: 27.08.2005, 15:08
von moviemazler
Hi,

hmmm ja ich denke dann passt es und müsste funktionieren.
Dummerweise kann man ja auch Dateien ohne Erweiterung angeben, dann ist kein Punkt drin...

Gruß Markus

Crawlen: wie wirkl. 100% erkennen ob Verzeichnis oder Datei?

Verfasst: 27.08.2005, 15:14
von derHund
probier es doch mal aus! da ich das problem auch haben werde, werde ichs selber sicherlich auch probieren, aber nicht heute.

was erhälts du, wenn du ein vorhandenes verzeichnis anfragst, ohne slash am ende, per GET? 404? oder 301/2? also, hast du den query schon mal probiert?

Crawlen: wie wirkl. 100% erkennen ob Verzeichnis oder Datei?

Verfasst: 27.08.2005, 15:49
von net(t)worker
Hi,

www.domain.tld/verzeichnis ist immer eine Datei

www.domain.tld/verzeichnis/ ist immer ein Verzeichnis

natürlich kann man per mod_rewrite alles umbiegen.

Wenn bei dir also auch

www.domain.tld/verzeichnis auf ein verzeichnis verweist, solltest du nen 301 auf www.domain.tld/verzeichnis/ machen, dann klappts auch mit den relativen Links... :wink:

Crawlen: wie wirkl. 100% erkennen ob Verzeichnis oder Datei?

Verfasst: 27.08.2005, 16:16
von Airport1
Ich moechte ja crawlen, da kann ich schlecht irgendwelchen Webmastern sagen: "setz mal Deine Links richtig!" ;)

Anscheinend handlet der Apache das alles wie folgt:

ich gehe z.B. auf
https://spielestern.de/slz
und gebe den schliessenden Slash absichtlich nicht ein:

GET /slz HTTP/1.1
Host: spielestern.de
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; de-DE; rv:1.7.8) Gecko/20050511 Firefox/1.0.4
Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5
Accept-Language: de-de,de;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding: gzip,deflate
Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7
Keep-Alive: 300
Connection: keep-alive

HTTP/1.x 301 Moved Permanently
Date: Sat, 27 Aug 2005 15:12:28 GMT
Server: Apache/1.3.27 (Unix) mod_perl/1.28 mod_ssl/2.8.14 OpenSSL/0.9.6b
Location: https://spielestern.de/slz/
Keep-Alive: timeout=2, max=100
Connection: Keep-Alive
Transfer-Encoding: chunked
Content-Type: text/html; charset=iso-8859-1

Man beachte vor allem:
HTTP/1.x 301 Moved Permanently
Location: https://spielestern.de/slz/

Diese Moeglichkeit (gucken was der Server im Header zurueckgibt) wird dann wohl die einzige sein wirklich 100% richtig zu crawlen, oder?

Crawlen: wie wirkl. 100% erkennen ob Verzeichnis oder Datei?

Verfasst: 27.08.2005, 16:24
von net(t)worker
Jo,

wenn du spidern möchtest, solltest du die anzahl der möglichen redirects auf 0 setzen und wenn du kein 200 bekommst eben den header auswerten... so bekommst du die richtige URL... nutzt du snoopy oder eine pear Class?

Re: Crawlen: wie wirkl. 100% erkennen ob Verzeichnis oder Da

Verfasst: 27.08.2005, 21:43
von derHund
Airport1 hat geschrieben:Diese Moeglichkeit (gucken was der Server im Header zurueckgibt) wird dann wohl die einzige sein wirklich 100% richtig zu crawlen, oder?
ja. das mußt du ja sowieso tun, ... also, den status-code auswerten (wegens weiterleitungen etc ...)... ist also kein zusätzlicher aufwand.

gut zu wissen.