[linux-l] Was hat mein Server für eine Krankheit?

Steffen Karge karge.steffen at gmx.de
Mo Jan 17 19:43:18 CET 2005


Ich habe den Server jetzt für mind. 10 Minuten nur mit IO und 
Netztraffic auf Load >8 gehalten. Nicht abgestürzt.
Mir scheint, während eines Raid5-Resync stürzt er "einfacher" ab.
Da hat es keine 5 Minuten gedauert, wenn während des Resync viel gelesen 
habe.
Vielleicht ist da ja noch ein Käfer im Kernel?


Christoph Biedl schrieb:
> 
> Hm, Gentoo ist immer ziemlich weit vorne an der blutigen Kante. Schon
> mal ein Knoppix gebootet, tritt das Problem weiterhin auf? Auch bin ich
> bei 2.6.10 mißtrauisch, wie sieht's bei 2.6.8.1 aus?

Nun ja, der Kernel ist nicht von Gentoo, sondern der ungepatchte 
originale von kernel.org. Nur der Compiler ist damit von Gentoo. Aber 
ich denke, wenn der Mist bauen würde, würde die Kiste garnicht erst 
richtig laufen.

Ich werde jetzt auf den nächsten Absturz warten und dann auf 2.6.8.1 
downgraden.


> 
> Timing im Bios etwas entspannter wählen?

PC133-Module mit FSB 100 und Timings auf Auto? Wirds wohl nicht sein, 
wird aber verfolgt, sobald ich einen Rechner habe, wo ich Board, CPU und 
Speicher wieder einbauen kann.

(...)
> Das schränkt die Verdächtigen auf Promise, NIC und Grafikkarte ein.
> Modulo Überraschungen.

Wie sieht es mit Festplatten/Kabel aus? Wenn dort was im Argen wäre, 
würde man doch irgendwo Meldungen bzgl. IDE-Bus finden?! Ausserdem wären 
dann auch nicht die Dateisysteme in Ordnung. Liege ich da richtig?

> 
> Wie wurden die Interrupts verteilt (/proc/interrupts)?
            CPU0
   0:   95958288          XT-PIC  timer
   1:         24          XT-PIC  i8042
   2:          0          XT-PIC  cascade
  10:     211596          XT-PIC  eth0
  11:     211398          XT-PIC  ide2, ide3
  12:    1567783          XT-PIC  eth1
  14:     110240          XT-PIC  ide0
  15:     109377          XT-PIC  ide1
NMI:          0
ERR:         10

> 
> Die genauen Meldungen werden interessant, wenn der Kernel immer an
> derselben Stelle abstürzt. Behalte das mal im Auge.

Noch habe ich kein Muster entdeckt, werde aber ab jetzt immer ein Foto 
machen und ungefähr notieren, was gerade Größeres lief.



Jan-Benedict Glaw schrieb:
 > Erstmal brauchst Du den kompletten Oops; sollten bei einem dieser
 > Abstürze mehrere Oopse in Reihe ausgegeben werden, ist nur der erste
 > wirklich interessant.
 >
 > Insbesondere, wenn die Kiste stirbt, ist es nicht ganz einfach, den Oops
 > aufzuzeichnen. Hier kannst Du mit serieller Console arbeiten; dabei
 > brauchst Du einen 2ten Rechner und ein gekreuztes serielles Kabel.

Das wird schwierig. Habe ich keine Ahnung von. Ziehe ich als letzt 
Möglichkeit in Betracht.
Eine größere Auflösung (mehr Schrift) auf dem Monitor geht aber.


Dexter Filmore schrieb:

 >
 > Mich würde cat /proc/interrupts interessieren, evtl auch lspci -v

s.o. und http://www.kargyboy.de/lspci.txt

 >
 > Mal versucht, nacheinander alle nicht zum booten erforderlichen
 > Komponenten
 > abzuhängen? Erst Controller X, dann Controller Y, Netzwerkkarte usw?

Naja, das was jetzt drin stekct wird alles gebraucht. Raid5 braucht 
seine Platten, die Platten brauchen den Controller. Vom onBoard booten 
will LILO nicht.
Netzwerkkarte brauche ich, damit ich überhaupt vernünftig rankomme...
Würde zur Not auch ohne gehen... Aber hey, in dem Raum herrschen 5°C!

 >
 > Ich sehe, das ist ein VIA-Chipsatz - hat der der kernel APIC-Support? 
 > Wenn ja, mal abschalten. (Obwohl ich das unwahrscheinlich für die
 > Ursache halte mit intel ging's ja auch nicht). Aber hey, man hat 
schon > Pferde etc.

APIC iss aus.


Ich danke für Eure Tipps. Im Moment läuft er gerade. Mal sehen wie 
lange. Mir ist klar, dass die Sache noch nicht ausgestanden ist. 
Vielleicht ist ihm ja nur zu kalt :-)

Viele Grüße

Steffen.



Mehr Informationen über die Mailingliste linux-l