linux-l: Removing HTML tags with "sed"

Sven Guckes guckes at math.fu-berlin.de
Do Aug 27 12:11:32 CEST 1998


Quoting Dr. Bernd Freistedt (bernd.freistedt at charite.de):
> >> 	cat pipapo.html | sed -e s/<.*>//g
> >Nun, das ".*" ist ein bischen *zu* einfach gewaehlt -
> Noe, noe, da sind auch die "<" und ">" drin, also: "<.*>"
> >Dieser Ausdruck entfernt nicht nur tags, sondern auch Text dazwischen.
> Bist Du sicher? ;-O

Ziemlich sicher.  Aber das kann man ja mal einfach testen:

	$ strings `which sed` | head -1
	@(#)sed0.c 1.15 89/03/28 SMI
	$ echo "foo <b>and</b> bar" | sed -e "s/<.*>//"
	foo  bar

	$ gsed --version
	GNU sed version 1.17
	$ echo "foo <b>and</b> bar" | gsed -e "s/<.*>//"
	foo  bar

Kommt bei Euch was anderes raus?

Sven




Mehr Informationen über die Mailingliste linux-l