[linux-l] Font-Ersetzung im Acrobat Reader

Susanne susanne.schuetze at belug.de
Mi Aug 7 20:54:58 CEST 2019


Hallo Susanne

Du könntest versuchen dir die verwendeten Fonts des PDFs ausgeben zu lassen mit

pdffonts

und du könntest versuchen mit pdftotext den gesamten Text zu extrahieren, aber ich weiß nicht wie der mit tabellen umgeht.

Die tools sind CLI-tools und im packet poppler-utils

Das sind nur meine Ideen dazu.

schöne Grüße

Susanne


On 19-08-06 13:51:28, Susanne Jäger wrote:
> Hi,
> 
> hat jemand eine Idee, woher sich der Acrobat Reader die
> Fontersetzungstabelle holt. Wenn ich z.B. http://pardok.parlament-berlin.de/starweb/adis/citat/VT/18/SchrAnfr/S18-20173.pdf
> im Acrobat öffne, wird der Text in einem nahezu unleserlichen Schmuck-Font
> dargestellt, im eigentlich bevorzugten Okular passiert das nicht, aber damit
> bekomme ich die enthaltene Tabelle nicht sauber extrahiert. Das ist mir aber
> auch schon mit anderen Dateien passiert.
> 
> Debian buster, Acrobat reader aus dem Multimedia Repo
> http://www.deb-multimedia.org/ d.h. 9.5.5. und das Ganze mit XFCE
> 
> Gruß
> Susanne
> 
> -- 
> http://sujag.de - Webentwicklung und -beratung
> susjaeger at sujag.de
> Christinenstr. 36, 10119 Berlin, Tel: 030 - 443 241 73
> _______________________________________________
> linux-l mailing list
> linux-l at mlists.in-berlin.de
> Die Mailingliste der BeLUG (Berliner Linux User Group)
> 
> Wenn du diese Mailingliste  abbestellen willst, gehe bitte auf
> https://mlists.in-berlin.de/mailman/listinfo/linux-l-mlists.in-berlin.de
> und trage dich dort bitte aus
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : signature.asc
Dateityp    : application/pgp-signature
Dateigröße  : 833 bytes
Beschreibung: nicht verfügbar
URL         : <https://mlists.in-berlin.de/pipermail/linux-l-mlists.in-berlin.de/attachments/20190807/d9f16a33/attachment.sig>


Mehr Informationen über die Mailingliste linux-l