[linux-l] Was hat mein Server für eine Krankheit?

Steffen Karge karge.steffen at gmx.de
So Jan 16 19:12:04 CET 2005


Hallo Leute.

Kurzversion:

Woher kommen diese Fehler?
http://www.kargyboy.de/DSCF0001.jpg
http://www.kargyboy.de/DSCF0002.jpg
http://www.kargyboy.de/DSCF0003.jpg
Sorry für Bilder, wollte das alles nicht abtippen.


Lange Version:

Als fleißiger Mitleser hier auf der Liste weiß ich, dass es hier sehr 
kompetente Leute gibt. Daher will ich mal mein Problem schildern, ich 
selbst weiß nicht mehr weiter.
Ich hoffe, es stört keinen, dass ich mich etwas länger auslasse, aber 
ich denke, jede Info, die ich beibringe, braucht nicht erst extra 
eingeholt werden.


Folgende Konfiguration bildet die Ausgangslage:

* Soyo SY-6BA+ III Mainboard (Intel-BX) mit Tualatin-Celeron 1.2GHz
* funktionierende Kühlung (und 5°C Raumtemperatur)
* 4x256MB PC-133 SDRAM mit 100MHz betrieben
* Promise Ultra100 mit 2 Maxtor 120GB-Platten jeweils als Master
* Promise Fasttrak 100 mit 2 Maxtor 120GB-Platten jeweils als Master 
(ist zwar ein Raid-Controller, dessen Raid-Funktionalität wird hier aber 
nicht genutzt)
* 1 Dual-Port Netzwerkkarte mit 2 Tulip-Chips
* 1 Realtek-Netzwerkkarte
* am Primary-onBoard noch ein LG 4042B DVD-Ram als Master
* ATI Rage2C Graka AGP
Nichts übertaktet oder so.
Soviel zur Hardware.

Betriebssystem:
Gentoo-Linux 2004.2

Kernel:
Linux version 2.6.10 (root at node-1) (gcc version 3.3.4 20040623 (Gentoo 
Linux 3.3.4-r1, ssp-3.3.2-2, pie-8.7.6)) #2 Fri Jan 14 23:55:07 CET 2005

Blockdevices:
Filesystem  Type Size  Used Avail Use% Mounted on
/dev/md2     xfs 2.9G  2.4G  494M  84% /
Raid5 über die 4 Platten

/dev/md3     xfs  35G   23G   12G  66% /vm
Raid5 über die 4 Platten

/dev/md4     xfs 6.7G  2.8G  3.9G  42% /squid_cache
Raid5 über die 4 Platten

/dev/md0    ext2  19M  2.9M   16M  16% /boot
Raid1 über die 4 Platten

none       tmpfs 253M     0  253M   0% /dev/shm

/dev/mapper/data
              xfs 300G  204G   97G  68% /data
Raid5 über die 4 Platten + DeviceMapper AES Encryption!!!

Swaps:
Filename				Type	   Size	   Used	Priority
/dev/ide/host0/bus0/target0/lun0/part5  partition  262040   0	1
/dev/ide/host0/bus1/target0/lun0/part5  partition  262040   0	1
/dev/ide/host2/bus0/target0/lun0/part5  partition  262040   0	1
/dev/ide/host2/bus1/target0/lun0/part5  partition  262040   0	1


Tja, die Fehler sieht man auf den Fotos oben. Die Kiste ist jedesmal 
tot. Fehler tritt häufig unter hoher IO-Last auf, aber nicht immer.
In letzter Zeit kommen die Fehler immer häufiger. Will meinen, es geht 
schon länger so. Erst nur 1-2 Ausfälle im Monat, jetzt kann ich den 
Crash in 5 Minuten provozieren, indem ich ich viel von den Platten lese. 
Aber wie gesagt, es kommt auch vor, das der Server beim Nichtstun abranzt.

Mit Swapping hat es offenbar nichts zu tun, passiert auch, wenn nix 
ausgelagert wurde.

Gestern Memtest86 laufen lassen:
Bingo. Fehler bei Test 5 (Block Move). Mehrmals bei diesem Test bei 
genau 98% Fortschritt Fehler gefunden.
Jedes Speichermodul einzeln getestet: Kein Fehler.
Ein Modul in jedem der 4 Steckplätze getestet: Kein Fehler
Wieder alle 4 Module, diesmal Reihenfolge in den Bänken umgetauscht: 
Fehler bei Test 5 bei 98%.

Hmm. Das Board vielleicht futsch.

Also Server komplett umgebaut.

Hardware jetzt:

* Asus-Board (genau Bezeichnung jetzt nicht parat) mit Via-Apollo-Pro 
133A Chipsatz
* Intel P3 533MHz
* 1x256MB, 2x128 MB (komplett anderer Speicher)
* den Brenner am Primary onBoard als Master
* eine Platte am Primary onBoard als Slave
* eine Platte am Secondary onBoard als Master
* 2 Platten am Promise Ultra 100, jeweils Master
* 1 Dual-Port Netzwerkkarte mit 2 Tulip-Chips
* ATI Rage2C Graka AGP

Habe also Board, Speicher und CPU gewechselt, eine Netzwerkkarte und den 
TX2 rausgeschmissen.
Memtest86 findet jetzt keine Fehler mehr.

Trotzdem stürzt die Kiste immernoch dauernd ab. Die Fotos oben habe ich 
auch mit der jetzigen Konfig gemacht.

Nach einem Absturz läuft oft ein Raid-Recovery, aber manchmal auch nicht.
Ein xfs_check hat keine Fehler gefunden.

Hab auch keine ungewöhnlichen Einträge in irgendwelchen Logs entdeckt.

Die Kernel-Config gibts hier: http://www.kargyboy.de/config.txt
Und ein DMESG habe ich für Euch natürlich auch: 
http://www.kargyboy.de/dmesg.txt


Hat jemand ein Idee, wie ich jetzt weiterforschen könnte, um den Fehler 
zu finden?
Ich habe keinen Plan mehr...

Vielen Dank fürs aufmerksame Durchlesen ;-)

Grüße!

Steffen Karge.



Mehr Informationen über die Mailingliste linux-l