Seite 1 von 1
PDF für Google in einem bestimmten Format?
Verfasst: 18.02.2008, 15:33
von tomber
Hallo!
Muss man bei der Erstellung von PDF's die Google indizieren soll irgendwas beachten? Z.B. am Ausgabeformat.
ich hab hier ein PDF aus dem ich keinen Text rauskopieren kann..hat aber glaub ich nichts mit den Sicherheitseinstellungen zu tun.
Kann Google auch so ein PDF indizieren?
Tom
Verfasst: 18.02.2008, 16:20
von chrizz
hm. wenn du den Text nicht mit dem Textauswahlwerkzeug rauskopieren kannst, dann liegt das m.E. nach doch an den Sicherheitseinstellungen des Dokuments (Strg+D).
Aber ob Google sowas indiziert... gute Frage. Muss ich passen... aber es sind ja noch genügend andere User hier....vielleicht hat das irgendwer mal getestet

Verfasst: 18.02.2008, 16:55
von tomber
Hallo!
hab mir gerade mal die Sicherheitseinstellungen des betreffenden PDF angesehen..es sind keine Einschränkungen drauf. Trotzdem kann ich keinen Text rauskopieren..obwohl es mit Acrobat Distiller erstellt wurde. Hier mal der Link zu dem Dokument:
https://www.heilpraxis-zeuthen.de/media ... e-0108.pdf
Aber warum kann ich da keinen Text rauskopieren?? Hmmmm
Verfasst: 18.02.2008, 16:56
von silverbullet
Google kann in pdf-Files nur gerenderten Fließetext lesen, bei gescannten Texten hast du keine Chance.
Verfasst: 18.02.2008, 16:59
von chrizz
stimmt.... da gabs ja noch was...^^
Wenn du das Dokument auch digital als Original vorliegen hast (z.B. InDesign, Illustrator, Photoshop usw....), dann nimm mal eine Standardschriftart, die i.d.R. auf jedem PC vorhanden ist und generier nen neues PDF ohne vorher die Schrift in Pfade umzuwandeln... dann sollte es klappen.
Wenns nur nen Scan ist, dann lässt sich da leider nicht machen, ausser abtippen.
Verfasst: 18.02.2008, 17:00
von silverbullet
Das ist ein gescanntes Dokument, da kriegste trotz fehlendem Sicherheitsschutz keinen Text rauskopiert.
Verfasst: 18.02.2008, 18:19
von chrizz
das ist mir schon klar. Deswg. war die Frage ja, ob das Dok vielleicht auch noch in digitaler Originalform vorliegt. Das man aus nem Scan nichts/wenig machen kann weiß ich

)
@tomber: Deine Frage dürfte übrigens in diesem Thread beantwortet worden sein:
https://www.abakus-internet-marketing.d ... 53089.html
Verfasst: 19.02.2008, 09:36
von Sniper
Kannst Du da nicht mit einem OCR drübergehen?
Mir persönlich wäre es die Sache wert, da ja Dokumente auch indiziert werden und Content kann man/frau ja nie genug haben...
Grüße aus dem Westerwald
Günni
Verfasst: 19.02.2008, 11:05
von ole1210
Muss man bei der Erstellung von PDF's die Google indizieren soll irgendwas beachten? Z.B. am Ausgabeformat.
Jepp. Google indiziert PDFs nur, wenn diese als html oder php abgescheichert werden...
Verfasst: 19.02.2008, 12:17
von e-fee
ole1210 hat geschrieben:
Muss man bei der Erstellung von PDF's die Google indizieren soll irgendwas beachten? Z.B. am Ausgabeformat.
Jepp. Google indiziert PDFs nur, wenn diese als html oder php abgescheichert werden...
Kannst Du diese These mal näher erläutern? Wie kommst Du auf dieses schmale Brett?
Also ich kenne genügend indizierte PDFs, die als .pdf abgespeichert sind. Oder meinst Du irgendwas anderes?
Ich hab z.B. ganz simpel per OpenOffice Dateien (selbst 'ne Präsentation) als PDF gespeichert (application/pdf-Objekt), und die sind alle im Google-Index.
Mir ist aus den Erinnerungen, die ich am mein Embedded-Metadata-Seminar im vergangenen Semester (und da speziell die Sitzung, in der wir den Aufbau von PDF-Dateien auseinanderklamüsert haben) habe, auch nichts bekannt, inwieweit da HTML oder gar PHP (was zum Teufel hat PHP als serverseitige Sprache damit zu tun???) eine Rolle spielen sollen. Selbst für interne Formatierung, die ggf. als String-Objekt im PDF liegen könnte, erwarte ich doch eigentlich eher irgendein XML-Derivat, aber nicht unbedingt HTML, oder?