Regex Tag entfernen (was: Re: linux-l: LaTeX-nach-MSWord-Konvertierung (auch HTML))
Stefan Bund
bund at zedat.fu-berlin.de
Do Aug 27 12:39:40 CEST 1998
> > >> a) wenn ich aus HTML's die Tags entfernen will
> > >> cat pipapo.html | sed -e s/<.*>//g
> > >Zusammenfasssung:
> > >Dieser Ausdruck entfernt nicht nur tags, sondern auch Text dazwischen.
> >
> > Bist Du sicher? ;-O
>
> Also in Perl waere es zumindest so! . => _Alles_ ausser \n (im Normalen
> Modus) Also hat Sven wohl recht. Der richtige Ausdruck muesste heissen:
> $zeile =~ s/<[^>]*>//g; ## Sorry: Perlsyntax, muesste
> ## aber in sed aehnlich sein
> [^>] => Alles ausser einer schliessenden spitzen Klammer
Und was wird dann aus '<a href="/foo/bla/da>tei.html">Link</a>' :-)
Um das richtig zu machen m"usste man wohl doch die HTML Tag's
interpretieren. F"ur Perl gibt's aber einen HTML Parser, damit k"onnte man
sowas bestimmt sehr korrekt l"osen. (ist in libwww-perl drin,
HTML/Parser.pm).
Stefan.
--
@ @
-------------------------------oOO-(_)-OOo---------------------------
Stefan Bund, student of physics at Freie Universitaet Berlin, Germany
email: bund at zedat.fu-berlin.de ( or bund at physik.fu-berlin.de )
bund at berlin.cid-net.de
---------------------------------------------------------------------
Mehr Informationen über die Mailingliste linux-l