Du befindest Dich im Archiv vom ABAKUS Online Marketing Forum. Hier kannst Du Dich für das Forum mit den aktuellen Beiträgen registrieren.

Crawlen: wie wirkl. 100% erkennen ob Verzeichnis oder Datei?

Ajax, Hijax, Microformats, RDF, Markup, HTML, PHP, CSS, MySQL, htaccess, robots.txt, CGI, Java, Javascript usw.
Neues Thema Antworten
Airport1
PostRank 10
PostRank 10
Beiträge: 4489
Registriert: 16.08.2004, 18:50
Wohnort: Backnang / bei Stuttgart

Beitrag von Airport1 » 27.08.2005, 09:46

man kann ja bekanntlich so verlinken:

www.domain.tld/verzeichnis
aber auch
www.domain.tld/verzeichnis/
was eigentlich richtiger waere.

Nun mal folgender Fall:

auf
www.domain.tld/verzeichnis
wird bspw. relativ "hase.htm" verlinkt.
Nun koennte die absolute URI lauten:

www.domain.tld/verzeichnis/hase.htm

waere aber falsch wenn es sich bei /verzeichnis
tatsaechlich nicht um ein Verzeichnis sondern um eine Datei handeln wuerde, dann waere richtiger:

www.domain.tld/hase.htm

Wie bekomm ich nun raus ob die Vater URL am Ende ein Verzeichnis oder eine Datei ist? Reicht hier WIRKLICH WIRKLICH WIRKLICH nur nachzugucken ob ein Punkt bis zum ersten Auftreten von hinten eines / vorkommt?

Also fuer die Verlinkung von "hase.htm"

fuer www.domain.tld/verzeichnis -> www.domain.tld/verzeichnis/hase.htm

fuer www.domain.tld/seite.htm -> www.domain.tld/hase.htm
(da von rechts her gesehen ein Punkt bis zum Slash auftritt)

Vielleicht denk ich auch nur wieder zu kompliziert ;)
Linktauschanfragen zwecklos
https://www.bot-trap.de/ Spamschutz fuer Webmaster - zentrale Meldestelle fuer Web Spam
https://www.airport1.de/blog/ Lombagruschd Blog mid Gardadierle
https://www.ranking-hits.de/ Counter & PR Service

Anzeige von ABAKUS

von Anzeige von ABAKUS »


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

moviemazler
PostRank 2
PostRank 2
Beiträge: 41
Registriert: 14.01.2005, 11:26
Wohnort: bei München

Beitrag von moviemazler » 27.08.2005, 12:50

Hi Airport1,

wenn ich Dich richt verstanden habe, dann gibt folgendes ein Problem:

www.domain.tld/verzeichnis.nochwas/index

aber dann ein problem, denn /verzeichnis.nochwas/ ist ja wirklich ein Verzeichnis und keine Datei.

Gruß Markus

Airport1
PostRank 10
PostRank 10
Beiträge: 4489
Registriert: 16.08.2004, 18:50
Wohnort: Backnang / bei Stuttgart

Beitrag von Airport1 » 27.08.2005, 14:38

Ne, er wuerde ja von rechts nach links bis zum allerersten / suchen, und dann gucken ob darin ein Punkt enthalten ist, d.h. wuerde hier fuer einen relativen link home.htm z.b. aus

www.domain.tld/verzeichnis.nochwas/index
(eigentlich so korrekter: www.domain.tld/verzeichnis.nochwas/index/)

machen:

www.domain.tld/verzeichnis.nochwas/index/home.htm

weil index ja offensichtlich (es fehlt ein punkt) ein verzeichnis und keine datei ist.
Linktauschanfragen zwecklos
https://www.bot-trap.de/ Spamschutz fuer Webmaster - zentrale Meldestelle fuer Web Spam
https://www.airport1.de/blog/ Lombagruschd Blog mid Gardadierle
https://www.ranking-hits.de/ Counter & PR Service

Anzeige von ABAKUS

von Anzeige von ABAKUS »

Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

moviemazler
PostRank 2
PostRank 2
Beiträge: 41
Registriert: 14.01.2005, 11:26
Wohnort: bei München

Beitrag von moviemazler » 27.08.2005, 15:08

Hi,

hmmm ja ich denke dann passt es und müsste funktionieren.
Dummerweise kann man ja auch Dateien ohne Erweiterung angeben, dann ist kein Punkt drin...

Gruß Markus

derHund
PostRank 5
PostRank 5
Beiträge: 296
Registriert: 08.01.2005, 14:39

Beitrag von derHund » 27.08.2005, 15:14

probier es doch mal aus! da ich das problem auch haben werde, werde ichs selber sicherlich auch probieren, aber nicht heute.

was erhälts du, wenn du ein vorhandenes verzeichnis anfragst, ohne slash am ende, per GET? 404? oder 301/2? also, hast du den query schon mal probiert?

Anonymous

Beitrag von Anonymous » 27.08.2005, 15:49

Hi,

www.domain.tld/verzeichnis ist immer eine Datei

www.domain.tld/verzeichnis/ ist immer ein Verzeichnis

natürlich kann man per mod_rewrite alles umbiegen.

Wenn bei dir also auch

www.domain.tld/verzeichnis auf ein verzeichnis verweist, solltest du nen 301 auf www.domain.tld/verzeichnis/ machen, dann klappts auch mit den relativen Links... :wink:

Airport1
PostRank 10
PostRank 10
Beiträge: 4489
Registriert: 16.08.2004, 18:50
Wohnort: Backnang / bei Stuttgart

Beitrag von Airport1 » 27.08.2005, 16:16

Ich moechte ja crawlen, da kann ich schlecht irgendwelchen Webmastern sagen: "setz mal Deine Links richtig!" ;)

Anscheinend handlet der Apache das alles wie folgt:

ich gehe z.B. auf
https://spielestern.de/slz
und gebe den schliessenden Slash absichtlich nicht ein:

GET /slz HTTP/1.1
Host: spielestern.de
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; de-DE; rv:1.7.8) Gecko/20050511 Firefox/1.0.4
Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5
Accept-Language: de-de,de;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding: gzip,deflate
Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7
Keep-Alive: 300
Connection: keep-alive

HTTP/1.x 301 Moved Permanently
Date: Sat, 27 Aug 2005 15:12:28 GMT
Server: Apache/1.3.27 (Unix) mod_perl/1.28 mod_ssl/2.8.14 OpenSSL/0.9.6b
Location: https://spielestern.de/slz/
Keep-Alive: timeout=2, max=100
Connection: Keep-Alive
Transfer-Encoding: chunked
Content-Type: text/html; charset=iso-8859-1

Man beachte vor allem:
HTTP/1.x 301 Moved Permanently
Location: https://spielestern.de/slz/

Diese Moeglichkeit (gucken was der Server im Header zurueckgibt) wird dann wohl die einzige sein wirklich 100% richtig zu crawlen, oder?
Linktauschanfragen zwecklos
https://www.bot-trap.de/ Spamschutz fuer Webmaster - zentrale Meldestelle fuer Web Spam
https://www.airport1.de/blog/ Lombagruschd Blog mid Gardadierle
https://www.ranking-hits.de/ Counter & PR Service

Anonymous

Beitrag von Anonymous » 27.08.2005, 16:24

Jo,

wenn du spidern möchtest, solltest du die anzahl der möglichen redirects auf 0 setzen und wenn du kein 200 bekommst eben den header auswerten... so bekommst du die richtige URL... nutzt du snoopy oder eine pear Class?

derHund
PostRank 5
PostRank 5
Beiträge: 296
Registriert: 08.01.2005, 14:39

Beitrag von derHund » 27.08.2005, 21:43

Airport1 hat geschrieben:Diese Moeglichkeit (gucken was der Server im Header zurueckgibt) wird dann wohl die einzige sein wirklich 100% richtig zu crawlen, oder?
ja. das mußt du ja sowieso tun, ... also, den status-code auswerten (wegens weiterleitungen etc ...)... ist also kein zusätzlicher aufwand.

gut zu wissen.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag