robots.txt blockt index.php

Beitrag von **dackelblut** » 06.04.2013, 00:19

hallo.
hier eine beginner frage.

die zeile Disallow: /*.php$ in robots.txt blockt ja auch index.php, oder? wird mit der startseite dann die gesamte seite geblockt?
ich habe diesen eintrag bei einigen tutorials und seiten gefunden und einfach mal dummerweise ausprobiert. jetzt sagt webmastertools "Googlebot wird von https://www.amazon.de/ blockiert".
meine robots:

User-agent: *
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.php$
Disallow: /admin/
Sitemap: https://www.amazon.de/sitemap.xml

in der suche wird meine description mit "Aufgrund der robots.txt dieser Website ist keine Beschreibung für dieses Ergebnis verfügbar. Weitere Informationen" angezeigt.

in welchem fall würde es denn überhaupt sinn machen alles php zu blocken?

grüße

von **Anzeige von ABAKUS** »

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002

persönliche Betreuung
individuelle Beratung
kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.

Beitrag von **daniel5959** » 06.04.2013, 00:53

Hallo,

wenn die Startseite und normale Unterseiten der Website aus .html bestehen und bei Google aufgenommen werden sollen, aber das Gästebuch, das Umfrage-Formular, die Shoutbox, eine private Fotogalerie o.ä. aus .php bestehen und nicht durchsucht werden sollen, dann könnte sowas Sinn machen.

daniel5959

Beitrag von **Synonym** » 06.04.2013, 10:12

wenn die Startseite und normale Unterseiten der Website aus .html bestehen und bei Google aufgenommen werden sollen,

Oder, wenn die Files .php sind, aber die URL umgeschrieben wurde. Oder, wenn die Startseite im Root liegt, also / und nicht /index.php. Im letzteren Fall ist es nämlich völlig schnuppe, ob man die index.php sperrt oder nicht.

Beitrag von **pr_sniper** » 06.04.2013, 11:15

@Synonym: Unsinn - Der Besucherbrowser stellt html-Dateien dar. PHP ist eine Scriptsprache für Server, mit der man verschiedenste Aufgaben berechnen lassen, u.a. auch html-Dateien erzeugen und anbieten kann.

Bei richtiger Erstellung und richtigem Aufbau einer Website (simple HTML- Vereinbarungen) ist es richtig, Google die eventuelle Listung der Serverdateien durch die robots.txt "auszureden". Denn auch Google sollte ja bei Einhaltung der HTML- Vereinbarungen .php-Dateien als Server(steuerungs-)dateien überhaupt nicht indizieren.

Da jedoch "Spezialisten" oft keinerlei Ahnung von HTML haben, wird dieser eigentlich unsinnige Eintrag "/*.php$" notwendig.

Zudem besucht ein Mensch und auch Google immer Seiten, nicht Schrägstriche. Es gibt deshalb auch hier Vereinbarungen, dass bei Aufruf der Domain nicht etwa der "Slash" ohne jeglichen Inhalt und Aussage, sondern die "index.html", "index.htm", ... "default.html" aufgerufen wird, je nachdem, welche dieser Dateien zuerst gefunden wird.

Ein HTML-Kenner (selbst ein Beginner) würde jeder dynamisch (mit PHP, ASP, Perl, CGI ...) erstellten HTML-Seite die richtige Dateiendung .html bzw. -vereinfacht auch vereinbart- .htm verwenden und diese dann natürlich auch nur listen lassen.

Aber wozu sich als SEO-"Experte" mit simplem HTML herumschlagen ...

Beitrag von **Melegrian** » 06.04.2013, 11:39

Wenn ein Bot "www.example.com" aufruft, so ist nur / ein Bestandteil von Response und der Server übermittelt dem Bot im Response-Header nicht, ob sich dahinter eine /index.html oder default.html oder index.php verbürgt. Somit kann der Bot auch nicht erfahren, ob die Seite hinter / für den Bot durch die robots.txt mit Disallow: /*.php$ ausgeschlossen wurde oder nicht.

Beitrag von **dackelblut** » 06.04.2013, 20:54

ja also die startseite (index.php) liegt im root und die webseite ist auch über www.amazon.de/ zu erreichen. trotzdem konnte googlebot die seite nicht crawlen mit obiger robots.txt
ich hab jetzt alles raus genommen bis auf:

User-agent: *
Disallow: /admin/
Sitemap: https://www.amazon.de/sitemap.xml

und neu eingereicht. webmastertools sagt "okay"

Beitrag von **pr_sniper** » 07.04.2013, 10:52

Es ist doch in der Praxis viel einfacher: kannst du die Datei im Browser aufrufen, dann kann das auch Googlebot (wenn du nicht ausdrücklich Googlebot den Besuch durch eine .htaccess bzw. die Aufnahme in den Index durch eine robots.txt verbietest).

Nochmal aber: die index.php auf dem Server im Root hat eigentlich "nur" die Aufgabe, eine "richtige" index.htm(l) zu erstellen und dem Besucher als solche anzubieten. Der Browser stellt kein PHP dar! - Leider gibt es jede Menge "Spezialisten" die die erzeugte HTML-Datei mit der falschen Endung .php versehen. Oft ist es auch ein Fehler in den schlecht programmierten CMS.

So kann man über die Dateibezeichnungen und den HTML- Quelltext auch ganz einfach Hochstapler unter "SEOs" erkennen. Sie haben Null Ahnung von HTML, wollen das, was sie nicht mal kennen, aber "als SEO optimieren".

Beitrag von **Hasenhuf** » 07.04.2013, 14:44

pr_sniper hat geschrieben:@Synonym: Unsinn - Der Besucherbrowser stellt html-Dateien dar. PHP ist eine Scriptsprache für Server, mit der man verschiedenste Aufgaben berechnen lassen, u.a. auch html-Dateien erzeugen und anbieten kann.

In der robots.txt werden keine Dateien sondern Pfadangabe aufgelistet. Darüber hinaus gibt es noch den Unterschied zwischen Datei und Dokument. Im Endefekt stellt der Browser das html-Dokumente dar. Ja eine php-Datei kann auf dem Server html-Dateien erzeugen, was auch sinnvoll sein kann aber es spricht auch überhaupt nichts dagegen html-Dokumente von php-Dateien direkt ausgeben zu lassen. Das hat mit "Ahnung von HTML" gar nichts zu tun, eine html-Datei kann genau so schlechtes html enthalten wie ein php-Datei gutes html ausliefern kann. Um auch noch den umgekehrten Weg zu erwähnen, man kann den Server auch anweisen html-Dateien vor dem Ausliefern durch den php-Parser zu schicken.

Nur hat bis auf den ersten Satz nichts mit der Fragestellung des OP zu tun.

Beitrag von **Synonym** » 07.04.2013, 16:06

pr_sniper hat geschrieben:@Synonym: Unsinn - Der Besucherbrowser stellt html-Dateien dar. PHP ist eine Scriptsprache für Server, mit der man verschiedenste Aufgaben berechnen lassen, u.a. auch html-Dateien erzeugen und anbieten kann....

Da fragt man sich dann nur, wer hier Unsinn erzählt. Aber schön, dass Du der Meinung bist, ich wäre es.

Aber Melegrian hat Dir nun ja schon den Unterschied zwischen
domain.de/ und domain.de/index.xyz erklärt.

Also überleg mal, wer hier Unsinn erzählt und was passiert, wenn man die Index.php sperrt und einmal domain.de/ aufruft und dann domain.de/index.php

Erkläre doch mal, warum der Zugriff auf / dann nicht möglich sein soll, wenn das Indexfile (DirectoryIndex) doch Google völlig wurscht und vor allem unbekannt ist?

Das kann index.html sein, aber auch default.asp oder was ganz anderes. Das kennt nunmal nur der Server und kein anderer, so lange man es nicht direkt verlinkt.

Zudem besucht ein Mensch und auch Google immer Seiten, nicht Schrägstriche. Es gibt deshalb auch hier Vereinbarungen, dass bei Aufruf der Domain nicht etwa der "Slash" ohne jeglichen Inhalt und Aussage, sondern die "index.html", "index.htm", ... "default.html" aufgerufen wird, je nachdem, welche dieser Dateien zuerst gefunden wird.

Ah, gut zu wissen. Ich dachte immer, diese Auswahl, also welches File abgerufen und ausgeliefert werden soll entscheidet der Webserver. Da Du ja aber allwissend bist und andere unfug erzählen, müssen das dann alle anderen auch falsch haben. Dumm nur, dass Apache das direkt schon im RPM hat.

Würde mich aber nun schon reizen, woher Google meine Webserver-Config kennen soll....

die index.php auf dem Server im Root hat eigentlich "nur" die Aufgabe, eine "richtige" index.htm(l) zu erstellen

Hat sie das? Mist, macht meine auch nicht. Meine Scripte erstellen nicht einfach so andere Files.

Der Browser stellt kein PHP dar!

Tut er sehr wohl, er führt es nur nicht aus.
<?php echo 'world'; ?>
Bitte schön, da steht PHP.

Sie haben Null Ahnung von HTML, wollen das, was sie nicht mal kennen, aber "als SEO optimieren".

Ja, die gibt es. Und noch solche, die sich wichtig tun und null Ahnung von Servern haben.

Beitrag von **dackelblut** » 07.04.2013, 22:22

nachdem ich, mit neuer robots.txt, meine URL wieder an den index gesendet habe, wie lange kann das dauern bis sie in den suchergebnissen wieder auftaucht? dh wie lang braucht google zum erneuten crawlen der seite

(danke nochmal für die antworten)