[linux-l] Zeichensatz in Textdateien

Volker Grabsch vog at notjusthosting.com
So Aug 19 14:14:22 CEST 2007


On Sun, Aug 19, 2007 at 12:48:41PM +0200, Steffen Dettmer wrote:
> > Nur, dass kein Schwein latin-9 benutzt.  Da ist man mit der M$
> > Erweiterung von latin-1 schon erfolgreicher.
> 
> Benutzt keiner? Dachte, ist Standard in DE? MS hat eine latin9 Konkurenz
> definiert? Na, nicht wirklich überraschend.

Ja, das ist bescheuert, aber bei den gängigen Sonderzeichen (Umlaute, ß)
sind die noch kompatibel, der Schaden hält sich also in Grenzen. Aber
beim Euro-Zeichen wird's schon lustig. :-(

> > Die meisten Editoren oder sonstigen Programme benutzen eh irgendeine
> > interne Darstellung auf die du keinen Einfluss hast (was heutzutage
> > wohl meist irgendeine Unicode Repräsentation sein dürfte).
> 
> Java benutzt fest zwei Byte pro Zeichen, sollte auch Performance bringen
> (für den Preis von Speicher). 

... und den Preis an Unflexibilität. Unicode definiert nämlich mehr als
65536 Codes. Aber das sollte in Java eigentlich gut zu fixen sein, sie
brauchen "nur" ihren Char-Typ zu modernisieren. Oder sie machen halt
alles im UTF-16-Encoding, mit entsprechenden Performance-Verlusten.

> Also latin9, oder? :-) Warum nehmen die Anwendungen es dann nicht so
> gern? Wegen der Library-Unterstützung?

Ganz einfach: latin9 schränkt dich auf eine Sprache ein. Willst du
dein Projekt irgendwann einmal internationalisieren, darfst du pro
Sprache einen neuen Zeichensatz verwenden. *Das* ist Bloat.

Dann doch lieber einen Zeichensatz nehmen, in dem alle Zeichen erstmal
darstellbar sind, z.B. UTF-8 oder UTF-16.

Die Probleme gehen übrigens nicht erst mit asiatischen Sprachen los.
Schon ein kleiner Blick in Richtung Osteuropa zeigt, dass dort latin9
nicht mehr reicht, und man latin2 bemühen muss. Oder eben gleich UTF-8.


Gruß,

    Volker

-- 
Volker Grabsch
---<<(())>>---
Administrator
NotJustHosting GbR



Mehr Informationen über die Mailingliste linux-l