Regex Tag entfernen (was: Re: linux-l: LaTeX-nach-MSWord-Konvertierung (auch HTML))

Stefan Bund bund at zedat.fu-berlin.de
Do Aug 27 12:39:40 CEST 1998


> > >> a) wenn ich aus HTML's die Tags entfernen will
> > >> 	cat pipapo.html | sed -e s/<.*>//g
> > >Zusammenfasssung:
> > >Dieser Ausdruck entfernt nicht nur tags, sondern auch Text dazwischen.
> > 
> > Bist Du sicher? ;-O
> 
> Also in Perl waere es zumindest so! . => _Alles_ ausser \n (im Normalen
> Modus) Also hat Sven wohl recht. Der richtige Ausdruck muesste heissen:
> 	$zeile =~ s/<[^>]*>//g; ## Sorry: Perlsyntax, muesste
> 			        ## aber in sed aehnlich sein
> [^>] => Alles ausser einer schliessenden spitzen Klammer

Und was wird dann aus '<a href="/foo/bla/da>tei.html">Link</a>' :-)
Um das richtig zu machen m"usste man wohl doch die HTML Tag's
interpretieren. F"ur Perl gibt's aber einen HTML Parser, damit k"onnte man
sowas bestimmt sehr korrekt l"osen. (ist in libwww-perl drin,
HTML/Parser.pm). 

Stefan.

-- 
                                    @ @
 -------------------------------oOO-(_)-OOo---------------------------
 Stefan Bund, student of physics at Freie Universitaet Berlin, Germany

 email: bund at zedat.fu-berlin.de        ( or bund at physik.fu-berlin.de )
        bund at berlin.cid-net.de
 ---------------------------------------------------------------------
 




Mehr Informationen über die Mailingliste linux-l