[linux-l] Font-Ersetzung im Acrobat Reader
Susanne
susanne.schuetze at belug.de
Mi Aug 7 20:54:58 CEST 2019
Hallo Susanne
Du könntest versuchen dir die verwendeten Fonts des PDFs ausgeben zu lassen mit
pdffonts
und du könntest versuchen mit pdftotext den gesamten Text zu extrahieren, aber ich weiß nicht wie der mit tabellen umgeht.
Die tools sind CLI-tools und im packet poppler-utils
Das sind nur meine Ideen dazu.
schöne Grüße
Susanne
On 19-08-06 13:51:28, Susanne Jäger wrote:
> Hi,
>
> hat jemand eine Idee, woher sich der Acrobat Reader die
> Fontersetzungstabelle holt. Wenn ich z.B. http://pardok.parlament-berlin.de/starweb/adis/citat/VT/18/SchrAnfr/S18-20173.pdf
> im Acrobat öffne, wird der Text in einem nahezu unleserlichen Schmuck-Font
> dargestellt, im eigentlich bevorzugten Okular passiert das nicht, aber damit
> bekomme ich die enthaltene Tabelle nicht sauber extrahiert. Das ist mir aber
> auch schon mit anderen Dateien passiert.
>
> Debian buster, Acrobat reader aus dem Multimedia Repo
> http://www.deb-multimedia.org/ d.h. 9.5.5. und das Ganze mit XFCE
>
> Gruß
> Susanne
>
> --
> http://sujag.de - Webentwicklung und -beratung
> susjaeger at sujag.de
> Christinenstr. 36, 10119 Berlin, Tel: 030 - 443 241 73
> _______________________________________________
> linux-l mailing list
> linux-l at mlists.in-berlin.de
> Die Mailingliste der BeLUG (Berliner Linux User Group)
>
> Wenn du diese Mailingliste abbestellen willst, gehe bitte auf
> https://mlists.in-berlin.de/mailman/listinfo/linux-l-mlists.in-berlin.de
> und trage dich dort bitte aus
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname : signature.asc
Dateityp : application/pgp-signature
Dateigröße : 833 bytes
Beschreibung: nicht verfügbar
URL : <https://mlists.in-berlin.de/pipermail/linux-l-mlists.in-berlin.de/attachments/20190807/d9f16a33/attachment.sig>
Mehr Informationen über die Mailingliste linux-l