[linux-l] komische Umlaute - welche Kodierung?

Steffen Dettmer steffen at dett.de
So Aug 12 22:17:43 CEST 2007


* Boris Kirkorowicz wrote on Sun, Aug 12, 2007 at 14:07 +0200:
> Hallo,
> 
> Am 12.08.2007 11:39 schrieb Volker Wegert:
> > ich habe hier einen Stapel .zip-Dateien bekommen, die beim Auspacken komische
> > Umlaute in den Dateinamen erzeugen:
> > 
> > 0xf5 = ä
> > 0xf7 = ö
> > 0xb3 = ü
> > 0x5F = Ü
> > 0xaf = ß
> 
> bist Du sicher, da nicht etwas beim Raten verwechselt zu haben?

Ja, wirklich...

Ich hab mal alle Zeichensätze auf http://www.kostis.net/charsets/
probiert, aber mit Schnellschussscripting
  wget  -r -N -l 1 -nr
  for e in *.htm ; do  cat $e | perl -e '$c = join("", <>); $c =~
s/<\/td>.?.?\s+<td[^>]*>/<\/td><td>/sg; print $c' > ${e}.1l ; done

nach F5 und irgendwas mit a gesucht (less und grep F5 *1l|grep 'LETTER A'),
aber nichts gefunden.

> Mit F5 wird fast überall das kleine o mit Tilde oder der Unterstrich
> kodiert, bei EBCDIC ist es durchweg die Ziffer 5.

Weil ich das gerade hier hab und mal ganz interessant fand:
 - 85 Tabellen, 
 - 17 Treffer für F5 und LATIN SMALL LETTER O WITH TILDE
   --> die "meisten" kodieren also was anderes ;)
 - 0  Treffer für F5 und LOW LINE
 - 1  Treffer für F5 und FULLWIDTH VERTICAL LINE (iso10646)
 - 75 Treffer für 5F und LOW LINE (Zahlendreher, was :-))

Die, die 5F nicht für LOW LINE verwenden sind sind alle EBCDIC:
ebc037 (NOT SIGN), ebc1026, ebc1047, ebc500, ebc875 (CIRCUMFLEX ACCENT),
die Zeichen alle weit von LATIN CAPITAL LETTER U WITH DIAERESIS
entfernt, weil 5F "_" ist ja ASCII.

oki,

Steffen

-- 
Dieses Schreiben wurde maschinell erstellt,
es trägt daher weder Unterschrift noch Siegel.




Mehr Informationen über die Mailingliste linux-l