[linux-l] Zeichensatz in Textdateien

David Hansen david.hansen at physik.fu-berlin.de
So Aug 19 14:27:22 CEST 2007


On Sun, 19 Aug 2007 12:48:41 +0200 Steffen Dettmer wrote:

> * David Hansen wrote on Sat, Aug 18, 2007 at 13:24 +0200:
>> On Sat, 18 Aug 2007 12:39:16 +0200 Steffen Dettmer wrote:
>> > Ist UTF-8 nicht bloating in DE, wenn man nur ISO-8859-15 (latin9)
>> > braucht? 
>> 
>> Nur, dass kein Schwein latin-9 benutzt.  Da ist man mit der M$
>> Erweiterung von latin-1 schon erfolgreicher.
>
> Benutzt keiner? Dachte, ist Standard in DE? MS hat eine latin9 Konkurenz
> definiert? Na, nicht wirklich überraschend.

http://en.wikipedia.org/wiki/Windows-1252

Voll Latin-1 kompatibel, ein paar Control Chars durch sinnvollere
Zeichen ersetzt.  In der "realen" Welt mehr oder weniger Standard
(selbst Mozilla schickt das an einen Latin-1 Web Server, wenn du ein `€'
in ein Formular tippst).

Was Latin-9 angeht:  Es hat sich wirklich nicht durchgesetzt, und
außerhalb von West- und Mitteleuropa wirst du kaum jemanden treffen, der
damit was anfangen kann.

>> > Mit UTF ist doch selbst ein strlen plötzlich eine "teure" Funktion,
>> > oder?
>> 
>> Bei einem C string nicht viel teurer, in etwa ein `&' pro Zeichen.  
>
> Ist doch dann auf intel keine block CPU operation mehr, sondern eine
> "echte Schleife", oder? Stell ich mir deutlich langsamer vor (50%?).

50% von `fast nichts' ist immer noch `fast nichts'.  Zumindest kein
Grund sich Sorgen zu machen und auch die meisten C Programmierer werden
ein struct { char *txt; int len } benutzen.  In den meisten Fällen
interessiert eh die Anzahl der Bytes und nicht die der Zeichen.

> Also latin9, oder? :-) Warum nehmen die Anwendungen es dann nicht so
> gern? Wegen der Library-Unterstützung?

Library Unterstützung für Bytes?!  Nimm einfach UTF-8, das wird's noch
lange geben und praktisch jeder kann es lesen.

David



Mehr Informationen über die Mailingliste linux-l