[linux-l] Zeichensatz in Textdateien
Steffen Dettmer
steffen at dett.de
So Aug 19 12:48:41 CEST 2007
* David Hansen wrote on Sat, Aug 18, 2007 at 13:24 +0200:
> On Sat, 18 Aug 2007 12:39:16 +0200 Steffen Dettmer wrote:
> > Ist UTF-8 nicht bloating in DE, wenn man nur ISO-8859-15 (latin9)
> > braucht?
>
> Nur, dass kein Schwein latin-9 benutzt. Da ist man mit der M$
> Erweiterung von latin-1 schon erfolgreicher.
Benutzt keiner? Dachte, ist Standard in DE? MS hat eine latin9 Konkurenz
definiert? Na, nicht wirklich überraschend.
> UTF-8 ist aber bloat (in Hinsicht auf Speicherbedarf) für die meisten
> nicht Latin-1 kodierbaren Zeichen (z.B. die CJK Zeichen brauchen, glaube
> ich, drei Byte statt den "üblichen" zwei Byte).
Ja, und weil so ein Zeichen kommen könnte, muss man jedes angucken, ob's
MSB gesetzt ist (oder wie das war)...
> > Mit UTF ist doch selbst ein strlen plötzlich eine "teure" Funktion,
> > oder?
>
> Bei einem C string nicht viel teurer, in etwa ein `&' pro Zeichen.
Ist doch dann auf intel keine block CPU operation mehr, sondern eine
"echte Schleife", oder? Stell ich mir deutlich langsamer vor (50%?).
> Die meisten Editoren oder sonstigen Programme benutzen eh irgendeine
> interne Darstellung auf die du keinen Einfluss hast (was heutzutage
> wohl meist irgendeine Unicode Repräsentation sein dürfte).
Java benutzt fest zwei Byte pro Zeichen, sollte auch Performance bringen
(für den Preis von Speicher).
Also latin9, oder? :-) Warum nehmen die Anwendungen es dann nicht so
gern? Wegen der Library-Unterstützung?
oki,
Steffen
--
Dieses Schreiben wurde maschinell erstellt,
es trägt daher weder Unterschrift noch Siegel.
Mehr Informationen über die Mailingliste linux-l