[linux-l] Re: Bash und utf8

Rocco Rutte pdmef at cs.tu-berlin.de
Di Dez 12 12:08:51 CET 2006


Hi,

* Jan-Benedict Glaw [06-12-12 11:43:59 +0100] wrote:
>On Tue, 2006-12-12 07:00:23 +0000, Rocco Rutte <pdmef at cs.tu-berlin.de> wrote:
>> Andererseits: es löst zumindest das Problem, dass man weiss welches 
>> (Unicode) Encoding ein File hat. Das weiss man jetzt nämlich nicht, und 

>Ist das *wirklich* ein Problem?

Unter Umständen: ja.

>> es kann schief gehen, wenn man es über die locale ausknobelt und man ein 
>> File mit einem anderen Encoding bekommt. Und Insellösungen wie vim's 
>> modelines sind nicht portabel.

>Normalerweise sollte der Schreiber wissen, in welcher Kodierung er
>schreibt. Hat zumindest bei us-ascii, iso-8859-* und den diversen
>EBCDIC-Varianten funktioniert.

Naja, die sind ja auch alle 8bit. Klar sollte man wissen, welches Format 
ein Text hat, wenn man interaktiv damit arbeitet. Aber die Probleme mit 
locale fangen bei nicht-interaktiven Tools an. Man kann zum Beispiel 
nicht über ein latin1 und ein utf8 File nach 'für' greppen. Man arbeitet 
als User nicht immer mit dem gleichen Encoding unter seinem Account (bei 
mir z.B. können virtuelle Konsolen nur max. 8bit, oder man t remote 
einen nicht-UTF8-Terminalemulator, oder...)

In solchen Fällen habe ich keine Lust Files ständig umzukodieren bzw. 
einzelne immer auf das gerade aktuelle Encoding umzubiegen.

>> Für ein saubere Lösung fehlen mir auch die Ideen, bei denen man keine 
>> Bauschmerzen bekommt (z.B.: per Definition alles in UTF8 und dann 
>> transparent auf locales umkodieren, Metainformationen im Filesystem, 
>> etc; alles ganz schön krank ;-).

>Man mußte sich bisher schon *immer* bei Textdateien merken, in welcher
>Codierung diese verfaßt worden waren. Das ist seit > 30 Jahren so.
>Daher seh' ich nicht die dringende Notwendigkeit, das "Problem" zu
>lösen.

Klar war es schon immer so. Nur sind die Tools heute alle 8bit sicher 
und welcher Zeichensatz das jetzt genau ist, hat nur auf das Ergebnis 
Einfluss. Aber es kommen zumindest keine Fehler bei raus. Bei multibyte 
ist das anders, weil sie alle wegen ungültigem UTF8 sterben (womit sie 
ja recht haben).

   bye, Rocco
-- 
:wq!



Mehr Informationen über die Mailingliste linux-l