linux-l: 2 Fragen: a) Webbrowser b) Portscanner programmieren
Jan-Benedict Glaw
jbglaw at lug-owl.de
Di Feb 22 19:19:21 CET 2000
On Tue, Feb 22, 2000 at 03:23:56PM +0100, Oliver Bandel wrote:
> Hi!
>
> On Sun, 20 Feb 2000, Henrik Hempelmann wrote:
> [...]
> > Ein dickes Problem ist das Parsen von HTML - kaum eine Webseite
> > ist konformes HTML und will trotzdem ordentlich angezeigt werden,
>
> Wie machen das Programme wie wget?
wget braucht den HTML-Krams ja kaum zu parsen: es bekommt ja schon URIs,
die es einfach nur noch einzusammeln hat;) Wenn rekursiv gearbeitet wird,
dann kann man (solange nur <A>-Tags gesucht werden) ein paar "Annahmen"
machen, die das ganze einfacher machen:
- Das Tag geht von "<" bis ">"
- Von links anfangend das erste Leerzeichen (Space, Tab, ...) suchen
- nach "href=" suchen, gucken, ob ein `"' folgt; wenn ja, dann nach dem
nächsten `"' suchen und das dazwischen als URI nehmen. Wenn nicht, dann
nach dem nächsten Leerzeichen suchen und den Kram bis dahin als URI
auffassen...
> Wenn das HTML so chaotisch ist....
Naja, man kann Annahmen machen, vor allem, wenn es nur um ein Tag
geht. Aber wenn derer viele sind, dann ist das ganz schön aufwendig...
MfG, JBG
--
Fehler eingestehen, Größe zeigen: Nehmt die Rechtschreibreform zurück!!!
keyID=0x8399E1BB fingerprint=250D 3BCF 7127 0D8C A444 A961 1DBD 5E75 8399 E1BB
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname : nicht verfügbar
Dateityp : application/pgp-signature
Dateigröße : 232 bytes
Beschreibung: nicht verfügbar
URL : <https://mlists.in-berlin.de/pipermail/linux-l-mlists.in-berlin.de/attachments/20000222/73dd6b50/attachment.sig>
Mehr Informationen über die Mailingliste linux-l