linux-l: 2 Fragen: a) Webbrowser b) Portscanner programmieren

Jan-Benedict Glaw jbglaw at lug-owl.de
Di Feb 22 19:19:21 CET 2000


On Tue, Feb 22, 2000 at 03:23:56PM +0100, Oliver Bandel wrote:
> Hi!
> 
> On Sun, 20 Feb 2000, Henrik Hempelmann wrote:
> [...]
> > Ein dickes Problem ist das Parsen von HTML - kaum eine Webseite
> > ist konformes HTML und will trotzdem ordentlich angezeigt werden,
> 
> Wie machen das Programme wie wget?

wget braucht den HTML-Krams ja kaum zu parsen: es bekommt ja schon URIs,
die es einfach nur noch einzusammeln hat;) Wenn rekursiv gearbeitet wird,
dann kann man (solange nur <A>-Tags gesucht werden) ein paar "Annahmen"
machen, die das ganze einfacher machen:
- Das Tag geht von "<" bis ">"
- Von links anfangend das erste Leerzeichen (Space, Tab, ...) suchen
- nach "href=" suchen, gucken, ob ein `"' folgt; wenn ja, dann nach dem 
  nächsten `"' suchen und das dazwischen als URI nehmen. Wenn nicht, dann
  nach dem nächsten Leerzeichen suchen und den Kram bis dahin als URI
  auffassen...

> Wenn das HTML so chaotisch ist....

Naja, man kann Annahmen machen, vor allem, wenn es nur um ein Tag 
geht. Aber wenn derer viele sind, dann ist das ganz schön aufwendig...

MfG, JBG

-- 
Fehler eingestehen, Größe zeigen: Nehmt die Rechtschreibreform zurück!!!
keyID=0x8399E1BB fingerprint=250D 3BCF 7127 0D8C A444 A961 1DBD 5E75 8399 E1BB
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : nicht verfügbar
Dateityp    : application/pgp-signature
Dateigröße  : 232 bytes
Beschreibung: nicht verfügbar
URL         : <https://mlists.in-berlin.de/pipermail/linux-l-mlists.in-berlin.de/attachments/20000222/73dd6b50/attachment.sig>


Mehr Informationen über die Mailingliste linux-l