Regex Tag entfernen (was: Re: linux-l: LaTeX-nach-MSWord-Konvertierung (auch HTML))

Volker Kroll vkroll at i-m-r-k.com
Do Aug 27 12:16:39 CEST 1998


On Thu, Aug 27, 1998 at 11:37:01AM +0200
  Dr. Bernd Freistedt (bernd.freistedt at charite.de) wrote:
> At 11:17 27.08.1998 +0200, Sven Guckes wrote:
> >Quoting Dr. Bernd Freistedt (bernd.freistedt at charite.de):
> >> a) wenn ich aus HTML's die Tags entfernen will
> >> 	cat pipapo.html | sed -e s/<.*>//g
> >Zusammenfasssung:
> >Dieser Ausdruck entfernt nicht nur tags, sondern auch Text dazwischen.
> 
> Bist Du sicher? ;-O

Also in Perl waere es zumindest so! . => _Alles_ ausser \n (im Normalen
Modus) Also hat Sven wohl recht. Der richtige Ausdruck muesste heissen:
	$zeile =~ s/<[^>]*>//g; ## Sorry: Perlsyntax, muesste
			        ## aber in sed aehnlich sein
[^>] => Alles ausser einer schliessenden spitzen Klammer

Volker
	

-- 
**********************************************************************
* Volker Kroll (Berlin, Germany)                                     *
* Internet Marketing Roose + Kroll GbR                               *
* Webdesigner, Musiker                                               *
* mailto: vkroll at i-m-r-k.com                                         *
**********************************************************************




Mehr Informationen über die Mailingliste linux-l