[linux-l] Zeichensatz in Textdateien

Steffen Dettmer steffen at dett.de
So Aug 19 12:48:41 CEST 2007


* David Hansen wrote on Sat, Aug 18, 2007 at 13:24 +0200:
> On Sat, 18 Aug 2007 12:39:16 +0200 Steffen Dettmer wrote:
> > Ist UTF-8 nicht bloating in DE, wenn man nur ISO-8859-15 (latin9)
> > braucht? 
> 
> Nur, dass kein Schwein latin-9 benutzt.  Da ist man mit der M$
> Erweiterung von latin-1 schon erfolgreicher.

Benutzt keiner? Dachte, ist Standard in DE? MS hat eine latin9 Konkurenz
definiert? Na, nicht wirklich überraschend.

> UTF-8 ist aber bloat (in Hinsicht auf Speicherbedarf) für die meisten
> nicht Latin-1 kodierbaren Zeichen (z.B. die CJK Zeichen brauchen, glaube
> ich, drei Byte statt den "üblichen" zwei Byte).

Ja, und weil so ein Zeichen kommen könnte, muss man jedes angucken, ob's
MSB gesetzt ist (oder wie das war)...

> > Mit UTF ist doch selbst ein strlen plötzlich eine "teure" Funktion,
> > oder?
> 
> Bei einem C string nicht viel teurer, in etwa ein `&' pro Zeichen.  

Ist doch dann auf intel keine block CPU operation mehr, sondern eine
"echte Schleife", oder? Stell ich mir deutlich langsamer vor (50%?).

> Die meisten Editoren oder sonstigen Programme benutzen eh irgendeine
> interne Darstellung auf die du keinen Einfluss hast (was heutzutage
> wohl meist irgendeine Unicode Repräsentation sein dürfte).

Java benutzt fest zwei Byte pro Zeichen, sollte auch Performance bringen
(für den Preis von Speicher). 

Also latin9, oder? :-) Warum nehmen die Anwendungen es dann nicht so
gern? Wegen der Library-Unterstützung?

oki,

Steffen

-- 
Dieses Schreiben wurde maschinell erstellt,
es trägt daher weder Unterschrift noch Siegel.




Mehr Informationen über die Mailingliste linux-l