linux-l: Lehmanns Distri Test

Sa Jun 5 10:05:27 CEST 1999

Matthias Kranz schrieb:
> ...
> Es ist in meinen Augen einfach so, dass diese Tests, wie wir sie durchfuehren
> werden, eben schwerpunktmaessig die subjektive Bewertung des Testers enhalten
> werden. Wir haben ja kein Labor, in dem ueber einen langen Zeitraum hinweg die
> verschiedenen Distributionen in unterschiedlichen Versionen unter den gleichen
> Bedingungen von denselben Leuten getestet werden. 5-6 Distributionen, 20-25
> Tester mit voellig unterschiedlichem Background und auf voellig
> unterschiedlichen Systemen testend - da denke ich, bekommt man eben keine
> Ergebnisse, die man irgendwie statistisch auswerten koennte. Auch wenn man
> zwei oder Tests pro Jahr durchfuehrt. Ich glaube eher, dass uns dann auf
> bestimmte Fragen und Probleme konzentrieren sollten, um dann z.B.
> festzustellen ob ein Distributor seine Probleme mit der Zeit in den Griff
> bekommt oder ob z.B. die Austattung einer Distribution sich veraendert oder
> nicht. Das sind eben vielfach keine diskreten Werte, die man da ermitteln
> koennte ...

Klares Jein: Du hast natürlich recht darin, daß es sich nicht um ein
experimentelles Design handelt! Dem Charakter nach ist es wohl ein
Feldversuch. Dies beinhaltet natürlich -wie Du richtig erkennst- er-
hebliche Probleme in der Validität. Aber gerade weil Felduntersuchungen
eine höhere externe als interne Validität haben, ist es Aufgabe der 
Untersucher diese zu stärken! Das heißt konkret, daß die Bedingungen, 
die vom Tester mitgebracht werden, erfaßt und berichtet werden müssen 
(i.A.: Stichprobenbeschreibung).

> > Dazu gehört auch sich sein Handwerkszeug zu überlegen. ...
> Ja, ist natuerlich teilweise richtig. Aber schau' Dich doch 'mal um. Wieviele
> Zeitschriften haben bislang einen richtigen Ueberblick ueber die vorhandenen
> Distributionen gegeben? Welche Zeitschrift kann auf ein solches Potential von
> erfahrenen Linuxern zaehlen? Wir koennen urteilen, glaube ich.
Grundsätzliche Zustimmung!

> ... Weil man eben keine objektiven Kritierien festlegen kann. ...
Hier liegt ein Mißverständnis vor: Objektiv soll hier heißen: Das eine
Bewertung in einer Bestimmten Frage nicht von Bewerter zu Bewerter
schwankt. Das heißt dann, daß man ein GUI weiter nach Unterkriterien
(z.B.) untersuchen muß. Eine Meinungsäußerung der Art "diesunddas finde
ich gut" kommt, und wieder gebe ich Dir recht, nicht an Kriterien der 
Empirie heran!

> > > ...
> > ...                                                   ^^ ???
> Die muessten, genauso wie die Fragen, erst noch ausgedacht werden. Es ist doch
> so. Vergleiche es mit Buchrezensionen ;). Schau Dir 'mal Amazon.de oder
Mache ich -versprochen!
> Amazon.com an. Da wirst Du Buecher finden, die werden eben von einem Leser mit
> 5 Sternen und von einem anderen Leser mit nur einem Stern bewertet. Das erregt
> dann meine Aufmerksamkeit und ich lese mir den Kommentar der jeweiligen
> Rezensenten durch. In aller Regel merkst Du dann ganz schnell, warum die
> Bewertungen so differieren.
Dies Arbeit sollten wir den Rezipienten durch eine bessere Vor-
strukturierung unseres Kategoriensystems stark erleichtern. Vor allem 
sollten wir dringend auf implizite Bewertungen verzichten, das heißt
aber, wir müssen uns selbst über unsere Bewertungsschemata klar sein!

> ... Eine andere waere, sich an einem freien Samstag
> Nachmittag beim IN zu treffen und einen Fragenkatalog, oder eben zumindestens
> ein Grundgeruest, festzulegen. Da kann man auch gleich noch ein paar
> Spielregeln festmachen.
Treffen ist immer gut, weil Zusammenarbeit meist Unmittelbarkeit ver-
langt.

Meines Erachtens nach sollten wir erst Fragen sammeln und uns erst dann
Treffen. Meine Erfahrung mit Fragebogen und anderen Untersuchungen ist, 
daß es nahezu unmöglich ist ohne Arbeitsgrundlage an einem Nachmittag
(einschließlich der folgenden Nacht) auch nur in die Nähe guter Be-
wertungen zu kommen!
Auf der (leider parallelen) Re: linux-l: Lehmanns Distri Test habe ich 
über die HTML-Formular/Fragensammlung einige Andeutungen gemacht.
(Hierher zurückgeholt:)
So wie ich dies Formular gestaltet habe (zwanglos!) wären vier Teil-
bereiche erfaßt:
- hardware
- software
- Tester
- (möglicher) Nutzer
M.E. erlaubt die Unterteilung, auch weitere Unterteilung, mehr Arbeits-
teilung in den Möglichkeiten sinnvolle Bewertungen zu erstellen. Dies 
kann unmittelbar die verschiedenen Befähigungsgruppen innerhalb der
BeLUG ansprechen und nutzbar machen. Dinge von denen man eben weniger
Ahngung hat, braucht man nicht beachten, weil andere es tun.
Es zeigt sich in jeder Untersuchung von neuem, daß ungeahnte inter-
venierende Variablen auftreten. Das können wir nicht beseitigen. Gute
Vorbereitung bewahrt einen jedoch vor groben Fehlern!

Grüße
Egbert