linux-l: Probleme mit Systemabstürzen

Joachim von Thadden thadden at bbaw.de
Di Apr 21 19:12:31 CEST 1998


Hi!

Linux ist klasse!!! Es stürzt einfach nicht ab. Bis vor einer Woche
zumindest. Seit dem betreiben wir einen neuen Server, der sich in
schöner Regelmäßigkeit verabschiedet. Dabei treten drei unterschiedliche
Effekte auf:
1) Beim Absetzen eines Kommandos kommt es zum
        general protection: 0000
        cpu: 0
        ....
        Process fsck.ext2
In diesem Fall also bei einem fsck.ext2 -f /dev/sdb2, daß ich zuvor
erfolreich durchgeführt habe. Beim zweiten mal dann dieser Fehler.
Immerhin ist er absolut reproduzierbar. Zwei mal fsck.ext2 und schon hat
man den Fehler. Aber: Das System lebt danach noch! Weiterarbeiten
möglich. Das Ein- oder Ausschalten des Swap-Space ändert nichts und auch
ein mem=xxxM beim Booten hat nix gebracht. Der Rechner hat zwar 256M,
aber auch wenn ich ihm das nicht mitteile, er also nur mit 64M arbeitet,
bleibt das Problem. Ach ja, fsck.ext2 sagt außerdem jedesmal was neues,
duplicate blocks, inode ref count, u.s.w. Auch beim fünften mal. ALSO:
Das System ist im höchsten Maße unzuverlässig.
2) Der Rechner hat im Logfile folgenden Eintrag
   wait_queue is bad (eip = xxxxxxxx)
          q=xxxxxxx
         *q=xxxxxxx
Der kann beliebig oft vorkommen. Irgendwann in der Nacht verabschiedet
er sich dann. Toll was? Nur der Druck des Reset-Knopfes hilft dann noch.
3) Der Rechner ist am Morgen abgestürzt und zeigt nur noch einen
desynchronisierten Bildschirm.

Mein System:
Elitegroup Mainboard P6LX2-A, Chipsätze: Intel 824440LX und 82371AB
(PIIX4)
2x Pentium II, 266 Mhz, 512k internal Second-Level Cache
2x 128 MB SDRam
Netzkarte 2x Intel Etherexpress Pro 100/B
onboard Adaptec Aha2940UW bzw. DPT3334UW
Platten alle UW

Wir haben mehrere dieser Server beschafft und alle zeigen das gleiche
Bild. Da der Adaptec Controller Probleme mit SMP macht, laufen die
Geräte bis wir andere Controller besorgt haben (hat jemand 'nen Tip?)
ohne SMP. ES LÄUFT ALSO NUR EIN PROZESSOR. Bei Tests mit SMP-Support,
traten die gleichen Fehler auf! Der 440LX-Chipsatz macht gelegentlich
Probleme mit SMP, auch dieser Patch ist vorhanden, ändert aber auch
nichts.
Wegen des Adaptecs und der bekannten Probleme habe ich nun auch noch
einen anderen Controller versucht: Einige Server laufen mit
RAID-Systemen und zwar einem DPT3334UW-Controller (EATA-Treiber). Der
sollte auch mit SMP laufen, meine Tests sind aber alle ohne gemacht. Das
Problem tritt hier ebenfalls auf. Da ich insgesamt ca. 20GB in mehreren
Partitionen habe, gibt es bereits Probleme beim Formatieren der
Partitionen. Ich lasse sie alle zusätzlich mit der Badblocks-Option von
mkfs.ext2 überprüfen. Irgendwann kommt es dann zum Fehler 2). Der tritt
dann beim Badblocks immer häufiger auf, bis es schließlich zum Fehler 1)
kommt. Das System läuft zwar weiter, aber ich traue dem Frieden nicht.
Beim erneuten Formatieren kommt es wieder zu Fehler 2) u.s.w.

Hat irgend jemand ähnliche Probleme und kann Hilfestellug geben? Hat
jemand Erfahrung mit dem oben genannten Mainboard?

MfG/Sincerely
		Joachim von Thadden

************************************************************************
Berlin-Brandenburg Academy of Sciences		Joachim von Thadden
Jaegerstrasse 22-23				System Administration
10117 Berlin					thadden at bbaw.de

http://www.bbaw.de				phone +49 +30 203 70 375
info at bbaw.de					fax   +49 +30 203 70 444
************************************************************************




Mehr Informationen über die Mailingliste linux-l