Regex Tag entfernen (was: Re: linux-l: LaTeX-nach-MSWord-Konvertierung (auch HTML))

Volker Kroll vkroll at i-m-r-k.com
Do Aug 27 14:11:13 CEST 1998


At 12:39 27.08.98 +0200, Stefan Bund wrote:
>> 	$zeile =~ s/<[^>]*>//g; ## Sorry: Perlsyntax, muesste
>> 			        ## aber in sed aehnlich sein
>> [^>] => Alles ausser einer schliessenden spitzen Klammer
>
>Und was wird dann aus '<a href="/foo/bla/da>tei.html">Link</a>' :-)
Naja, das ist wohl sehr an den Haaren herbeigezogen, die wenigsten Browser
wuerden mit so einem Link klarkommen.

>Um das richtig zu machen m"usste man wohl doch die HTML Tag's
>interpretieren. F"ur Perl gibt's aber einen HTML Parser, damit k"onnte man
>sowas bestimmt sehr korrekt l"osen. (ist in libwww-perl drin,
>HTML/Parser.pm). 

Schon klar, aber nur um schnell ein paar Tags zu entfernen muss man wohl
kaum ne Lib bemuehen (nicht mal, wenn sie sowieso installiert ist (wie bei
mir)).

Volker





Mehr Informationen über die Mailingliste linux-l