[linux-l] komische Umlaute - welche Kodierung?
Steffen Dettmer
steffen at dett.de
So Aug 12 22:17:43 CEST 2007
* Boris Kirkorowicz wrote on Sun, Aug 12, 2007 at 14:07 +0200:
> Hallo,
>
> Am 12.08.2007 11:39 schrieb Volker Wegert:
> > ich habe hier einen Stapel .zip-Dateien bekommen, die beim Auspacken komische
> > Umlaute in den Dateinamen erzeugen:
> >
> > 0xf5 = ä
> > 0xf7 = ö
> > 0xb3 = ü
> > 0x5F = Ü
> > 0xaf = ß
>
> bist Du sicher, da nicht etwas beim Raten verwechselt zu haben?
Ja, wirklich...
Ich hab mal alle Zeichensätze auf http://www.kostis.net/charsets/
probiert, aber mit Schnellschussscripting
wget -r -N -l 1 -nr
for e in *.htm ; do cat $e | perl -e '$c = join("", <>); $c =~
s/<\/td>.?.?\s+<td[^>]*>/<\/td><td>/sg; print $c' > ${e}.1l ; done
nach F5 und irgendwas mit a gesucht (less und grep F5 *1l|grep 'LETTER A'),
aber nichts gefunden.
> Mit F5 wird fast überall das kleine o mit Tilde oder der Unterstrich
> kodiert, bei EBCDIC ist es durchweg die Ziffer 5.
Weil ich das gerade hier hab und mal ganz interessant fand:
- 85 Tabellen,
- 17 Treffer für F5 und LATIN SMALL LETTER O WITH TILDE
--> die "meisten" kodieren also was anderes ;)
- 0 Treffer für F5 und LOW LINE
- 1 Treffer für F5 und FULLWIDTH VERTICAL LINE (iso10646)
- 75 Treffer für 5F und LOW LINE (Zahlendreher, was :-))
Die, die 5F nicht für LOW LINE verwenden sind sind alle EBCDIC:
ebc037 (NOT SIGN), ebc1026, ebc1047, ebc500, ebc875 (CIRCUMFLEX ACCENT),
die Zeichen alle weit von LATIN CAPITAL LETTER U WITH DIAERESIS
entfernt, weil 5F "_" ist ja ASCII.
oki,
Steffen
--
Dieses Schreiben wurde maschinell erstellt,
es trägt daher weder Unterschrift noch Siegel.
Mehr Informationen über die Mailingliste linux-l