[linux-l] Zeichensatz in Textdateien

olafBuddenhagen at gmx.net olafBuddenhagen at gmx.net
Mo Aug 20 06:40:43 CEST 2007


Hallo,

On Sat, Aug 18, 2007 at 01:24:17PM +0200, David Hansen wrote:

> UTF-8 ist aber bloat (in Hinsicht auf Speicherbedarf) für die meisten
> nicht Latin-1 kodierbaren Zeichen (z.B. die CJK Zeichen brauchen,
> glaube ich, drei Byte statt den "üblichen" zwei Byte).

In der Praxis findet man aber kaum etwas, was ausschließlich CJK-Zeichen
enthält; es sind fast immer auch reine ASCII-Zeichen dabei. (z.B. HTML.)
Da relativiert sich der "Bloat" sehr schnell, da viele Zeichen mit einem
Byte statt zwei auskommen...

Interessant ist die Frage nach der CPU-Last: Verzweigungen (für
Sonderbehandlung von Mehrbyte-Zeichen in utf8) sind teuer; aber
zusätzliche Speicherzugriffe (wenn mehr Bytes gebraucht werden) sind
auch teuer... Für reine CJK ist utf8 auf jeden Fall teurer; aber im
typischen gemischten Fall ist die Situation keineswegs klar.

-Olaf-



Mehr Informationen über die Mailingliste linux-l