[linux-l] Zeichensatz in Textdateien

David Hansen david.hansen at physik.fu-berlin.de
Sa Aug 18 13:24:17 CEST 2007


On Sat, 18 Aug 2007 12:39:16 +0200 Steffen Dettmer wrote:

> * Volker Grabsch wrote on Tue, Aug 14, 2007 at 22:33 +0200:
>> $ file test-latin1.txt
>> test-latin1.txt: ISO-8859 text
>
> Das ist doch kein Zeichensatz, sondern eine Reihe von Zeichensätzen,
> hilft das denn hier überhaupt?

Nicht wirklich, da die sich nicht mit Sicherheit auseinanderhalten
lassen (zumindest automatisch).

>> Solch einen Zeichensatz gibt es nicht. Aber UTF-8 ist immer eine
>> gute Wahl. 
>
> Ist UTF-8 nicht bloating in DE, wenn man nur ISO-8859-15 (latin9)
> braucht? 

Nur, dass kein Schwein latin-9 benutzt.  Da ist man mit der M$
Erweiterung von latin-1 schon erfolgreicher.

UTF-8 ist aber bloat (in Hinsicht auf Speicherbedarf) für die meisten
nicht Latin-1 kodierbaren Zeichen (z.B. die CJK Zeichen brauchen, glaube
ich, drei Byte statt den "üblichen" zwei Byte).

> Mit UTF ist doch selbst ein strlen plötzlich eine "teure" Funktion,
> oder?

Bei einem C string nicht viel teurer, in etwa ein `&' pro Zeichen.  Die
meisten Editoren oder sonstigen Programme benutzen eh irgendeine interne
Darstellung auf die du keinen Einfluss hast (was heutzutage wohl meist
irgendeine Unicode Repräsentation sein dürfte).

David



Mehr Informationen über die Mailingliste linux-l