linux-l: OCR mit Linux (was: ...Faxdateien drucken..)
Karl-Heinz Haag
k at lux.in-berlin.de
Mi Mär 15 00:37:48 CET 2000
Quoting Jens Dreger (jens.dreger at physik.fu-berlin.de):
> On Mon, Mar 13, 2000 at 04:33:53PM +0100, Karl-Heinz Haag wrote:
> > Ich habe einige Dateien im .jfx Format.
> > Es sind jeweils mehrseitige Faxe mit ueberwiegend Text.
> > file gibt aus: [foo].jfx: TIFF image data, little-endian
>
> Wenn es wirklich TIFF ist (file raet ab und zu ja wilde Sachen), dann
> nuetzt Dir vielleicht auch das util "tiffsplit" aus dem libtiff Paket
> etwas. Spaetestens wenn Du das OCR-Problem geloest hast wirst Du wohl
> einzelne Bitmaps brauchen.
file hatte richtig 'geraten'.
tiffsplit hat bestens funkioniert.
Danke fuer diese hilfreichen Hinweise.
> Loesung des OCR-Problems bitte an mich forwarden ;-)
Da scheine ich in einen 'blinden Fleck' der Linux-Entwicklergemeinde
gepiekst zu haben.
An nennenswertem fand ich bis jetzt leider nur:
*xocr-5 zuletzt im Jahre 1996 vom Entwickler angefasst
die Sourcen kriegt man kompiliert, aber das
binary tut nicht das, was es soll: Text aus
den bitmaps auslesen -- oder hat das jemand
geschafft? Hinweise erwuenscht.
*quinefaut neueres Projekt eines frz. Studenten
(die links laufen derzeit ins Leere!)
*ocrshop das kommerzielle von vividata
(12Mb, 30 Tge Test?, Kosten>200$/Einzelplatz)
> Desweiteren ist evtl. "display" aus dem ImageMagick-Paket von
> Interesse, da es alle Seiten eines Multipage-TIFFs anzeigen kann.
War mir bekannt.
Erst durch Deinen Hinweis hier ist mir allerdings die Druckfunktion
von display aufgefallen. So kann man sich fuers Drucken den Umweg
ueber tiff2ps sparen.
Bei Problemloesung (--> OCR) melde ich mich wieder zum Thema.
Gruss
Karl-Heinz
Mehr Informationen über die Mailingliste linux-l