[linux-l] Zeichensatz in Textdateien
olafBuddenhagen at gmx.net
olafBuddenhagen at gmx.net
Mo Aug 20 06:40:43 CEST 2007
Hallo,
On Sat, Aug 18, 2007 at 01:24:17PM +0200, David Hansen wrote:
> UTF-8 ist aber bloat (in Hinsicht auf Speicherbedarf) für die meisten
> nicht Latin-1 kodierbaren Zeichen (z.B. die CJK Zeichen brauchen,
> glaube ich, drei Byte statt den "üblichen" zwei Byte).
In der Praxis findet man aber kaum etwas, was ausschließlich CJK-Zeichen
enthält; es sind fast immer auch reine ASCII-Zeichen dabei. (z.B. HTML.)
Da relativiert sich der "Bloat" sehr schnell, da viele Zeichen mit einem
Byte statt zwei auskommen...
Interessant ist die Frage nach der CPU-Last: Verzweigungen (für
Sonderbehandlung von Mehrbyte-Zeichen in utf8) sind teuer; aber
zusätzliche Speicherzugriffe (wenn mehr Bytes gebraucht werden) sind
auch teuer... Für reine CJK ist utf8 auf jeden Fall teurer; aber im
typischen gemischten Fall ist die Situation keineswegs klar.
-Olaf-
Mehr Informationen über die Mailingliste linux-l