linux-l: HTML oder nicht HTML ... das ist hier die Frage!

Andreas Fitzner fitzner at informatik.hu-berlin.de
So Mai 30 09:05:05 CEST 1999


Ich weiss jetzt nicht so recht wo dein Problem liegt. Apache loggt doch
in das access_log (default name) immer die erste zeile des 
http request's. Natuerlich taucht dann da meist nicht index.html auf. 
Und wenn deine directory indizierung immer durch index.html durchgefuehrt
wird, dann nimm doch einfach

<----------- snip -->
#! /usr/bin/perl -w

open(A,"access_log") || die; 
 while (<A>) {
   s#GET (/|/[^ ]+/) #GET \1index.html #; print;
 }
close(A);

<----------- snip -->
und schon hast du ueberall anstatt der directories die ensprechende
index.html des jeweiligen welchen.

und fertig.

und wenn du die .html dateien zaehlen willst, was ist mit
	grep '\.html' access_log | wc -l

\bye
Andreas

On Sat, May 29, 1999 at 10:02:02PM +0200, Gerald Erdmann wrote:
> Hallo Zusammen!
> 
> Beim Auswerten eines apache-Logfiles mittels webalizer ist mir
> aufgefallen, da webalizer nur so konfigurieren kann, da er Webseiten
> nur dann zhlt, wenn sie NICHT index.html sind. Entweder apache loggt
> diese erst gar nicht mit (sprich es tauch nur der Verzeichnisname auf)
> oder webalizer reduziert Zugriffe auf index.html auf das jeweilige
> Verzeichnis. Hat jemand eine Idee, wie ich webalizer dazu berreden
> kann, wirklich JEDE html-Seite gesammelt zu zhlen?!
> 
> Meine Idee wären:
> 
> 1) apache zu überreden, wirklich die rausgegebene Datei 
>    mitzuloggen und nicht nur den Verzeichnisnamen. Geht sowas?
> 2) Webalizer furchtbar aufwendig patchen oder mit Trick 17 konfigurieren
> 3) Ein eigenes Skript schreiben
> 
> Momentan glaube ich, daß 3) meine Lösung ist. Leider.
> Kann jemand was zu 1) und 2) sagen?



Mehr Informationen über die Mailingliste linux-l