[linux-l] Was hat mein Server für eine Krankheit?
Steffen Karge
karge.steffen at gmx.de
Mo Jan 17 19:43:18 CET 2005
Ich habe den Server jetzt für mind. 10 Minuten nur mit IO und
Netztraffic auf Load >8 gehalten. Nicht abgestürzt.
Mir scheint, während eines Raid5-Resync stürzt er "einfacher" ab.
Da hat es keine 5 Minuten gedauert, wenn während des Resync viel gelesen
habe.
Vielleicht ist da ja noch ein Käfer im Kernel?
Christoph Biedl schrieb:
>
> Hm, Gentoo ist immer ziemlich weit vorne an der blutigen Kante. Schon
> mal ein Knoppix gebootet, tritt das Problem weiterhin auf? Auch bin ich
> bei 2.6.10 mißtrauisch, wie sieht's bei 2.6.8.1 aus?
Nun ja, der Kernel ist nicht von Gentoo, sondern der ungepatchte
originale von kernel.org. Nur der Compiler ist damit von Gentoo. Aber
ich denke, wenn der Mist bauen würde, würde die Kiste garnicht erst
richtig laufen.
Ich werde jetzt auf den nächsten Absturz warten und dann auf 2.6.8.1
downgraden.
>
> Timing im Bios etwas entspannter wählen?
PC133-Module mit FSB 100 und Timings auf Auto? Wirds wohl nicht sein,
wird aber verfolgt, sobald ich einen Rechner habe, wo ich Board, CPU und
Speicher wieder einbauen kann.
(...)
> Das schränkt die Verdächtigen auf Promise, NIC und Grafikkarte ein.
> Modulo Überraschungen.
Wie sieht es mit Festplatten/Kabel aus? Wenn dort was im Argen wäre,
würde man doch irgendwo Meldungen bzgl. IDE-Bus finden?! Ausserdem wären
dann auch nicht die Dateisysteme in Ordnung. Liege ich da richtig?
>
> Wie wurden die Interrupts verteilt (/proc/interrupts)?
CPU0
0: 95958288 XT-PIC timer
1: 24 XT-PIC i8042
2: 0 XT-PIC cascade
10: 211596 XT-PIC eth0
11: 211398 XT-PIC ide2, ide3
12: 1567783 XT-PIC eth1
14: 110240 XT-PIC ide0
15: 109377 XT-PIC ide1
NMI: 0
ERR: 10
>
> Die genauen Meldungen werden interessant, wenn der Kernel immer an
> derselben Stelle abstürzt. Behalte das mal im Auge.
Noch habe ich kein Muster entdeckt, werde aber ab jetzt immer ein Foto
machen und ungefähr notieren, was gerade Größeres lief.
Jan-Benedict Glaw schrieb:
> Erstmal brauchst Du den kompletten Oops; sollten bei einem dieser
> Abstürze mehrere Oopse in Reihe ausgegeben werden, ist nur der erste
> wirklich interessant.
>
> Insbesondere, wenn die Kiste stirbt, ist es nicht ganz einfach, den Oops
> aufzuzeichnen. Hier kannst Du mit serieller Console arbeiten; dabei
> brauchst Du einen 2ten Rechner und ein gekreuztes serielles Kabel.
Das wird schwierig. Habe ich keine Ahnung von. Ziehe ich als letzt
Möglichkeit in Betracht.
Eine größere Auflösung (mehr Schrift) auf dem Monitor geht aber.
Dexter Filmore schrieb:
>
> Mich würde cat /proc/interrupts interessieren, evtl auch lspci -v
s.o. und http://www.kargyboy.de/lspci.txt
>
> Mal versucht, nacheinander alle nicht zum booten erforderlichen
> Komponenten
> abzuhängen? Erst Controller X, dann Controller Y, Netzwerkkarte usw?
Naja, das was jetzt drin stekct wird alles gebraucht. Raid5 braucht
seine Platten, die Platten brauchen den Controller. Vom onBoard booten
will LILO nicht.
Netzwerkkarte brauche ich, damit ich überhaupt vernünftig rankomme...
Würde zur Not auch ohne gehen... Aber hey, in dem Raum herrschen 5°C!
>
> Ich sehe, das ist ein VIA-Chipsatz - hat der der kernel APIC-Support?
> Wenn ja, mal abschalten. (Obwohl ich das unwahrscheinlich für die
> Ursache halte mit intel ging's ja auch nicht). Aber hey, man hat
schon > Pferde etc.
APIC iss aus.
Ich danke für Eure Tipps. Im Moment läuft er gerade. Mal sehen wie
lange. Mir ist klar, dass die Sache noch nicht ausgestanden ist.
Vielleicht ist ihm ja nur zu kalt :-)
Viele Grüße
Steffen.
Mehr Informationen über die Mailingliste linux-l