[linux-l] Was hat mein Server für eine Krankheit?
Steffen Karge
karge.steffen at gmx.de
So Jan 16 19:12:04 CET 2005
Hallo Leute.
Kurzversion:
Woher kommen diese Fehler?
http://www.kargyboy.de/DSCF0001.jpg
http://www.kargyboy.de/DSCF0002.jpg
http://www.kargyboy.de/DSCF0003.jpg
Sorry für Bilder, wollte das alles nicht abtippen.
Lange Version:
Als fleißiger Mitleser hier auf der Liste weiß ich, dass es hier sehr
kompetente Leute gibt. Daher will ich mal mein Problem schildern, ich
selbst weiß nicht mehr weiter.
Ich hoffe, es stört keinen, dass ich mich etwas länger auslasse, aber
ich denke, jede Info, die ich beibringe, braucht nicht erst extra
eingeholt werden.
Folgende Konfiguration bildet die Ausgangslage:
* Soyo SY-6BA+ III Mainboard (Intel-BX) mit Tualatin-Celeron 1.2GHz
* funktionierende Kühlung (und 5°C Raumtemperatur)
* 4x256MB PC-133 SDRAM mit 100MHz betrieben
* Promise Ultra100 mit 2 Maxtor 120GB-Platten jeweils als Master
* Promise Fasttrak 100 mit 2 Maxtor 120GB-Platten jeweils als Master
(ist zwar ein Raid-Controller, dessen Raid-Funktionalität wird hier aber
nicht genutzt)
* 1 Dual-Port Netzwerkkarte mit 2 Tulip-Chips
* 1 Realtek-Netzwerkkarte
* am Primary-onBoard noch ein LG 4042B DVD-Ram als Master
* ATI Rage2C Graka AGP
Nichts übertaktet oder so.
Soviel zur Hardware.
Betriebssystem:
Gentoo-Linux 2004.2
Kernel:
Linux version 2.6.10 (root at node-1) (gcc version 3.3.4 20040623 (Gentoo
Linux 3.3.4-r1, ssp-3.3.2-2, pie-8.7.6)) #2 Fri Jan 14 23:55:07 CET 2005
Blockdevices:
Filesystem Type Size Used Avail Use% Mounted on
/dev/md2 xfs 2.9G 2.4G 494M 84% /
Raid5 über die 4 Platten
/dev/md3 xfs 35G 23G 12G 66% /vm
Raid5 über die 4 Platten
/dev/md4 xfs 6.7G 2.8G 3.9G 42% /squid_cache
Raid5 über die 4 Platten
/dev/md0 ext2 19M 2.9M 16M 16% /boot
Raid1 über die 4 Platten
none tmpfs 253M 0 253M 0% /dev/shm
/dev/mapper/data
xfs 300G 204G 97G 68% /data
Raid5 über die 4 Platten + DeviceMapper AES Encryption!!!
Swaps:
Filename Type Size Used Priority
/dev/ide/host0/bus0/target0/lun0/part5 partition 262040 0 1
/dev/ide/host0/bus1/target0/lun0/part5 partition 262040 0 1
/dev/ide/host2/bus0/target0/lun0/part5 partition 262040 0 1
/dev/ide/host2/bus1/target0/lun0/part5 partition 262040 0 1
Tja, die Fehler sieht man auf den Fotos oben. Die Kiste ist jedesmal
tot. Fehler tritt häufig unter hoher IO-Last auf, aber nicht immer.
In letzter Zeit kommen die Fehler immer häufiger. Will meinen, es geht
schon länger so. Erst nur 1-2 Ausfälle im Monat, jetzt kann ich den
Crash in 5 Minuten provozieren, indem ich ich viel von den Platten lese.
Aber wie gesagt, es kommt auch vor, das der Server beim Nichtstun abranzt.
Mit Swapping hat es offenbar nichts zu tun, passiert auch, wenn nix
ausgelagert wurde.
Gestern Memtest86 laufen lassen:
Bingo. Fehler bei Test 5 (Block Move). Mehrmals bei diesem Test bei
genau 98% Fortschritt Fehler gefunden.
Jedes Speichermodul einzeln getestet: Kein Fehler.
Ein Modul in jedem der 4 Steckplätze getestet: Kein Fehler
Wieder alle 4 Module, diesmal Reihenfolge in den Bänken umgetauscht:
Fehler bei Test 5 bei 98%.
Hmm. Das Board vielleicht futsch.
Also Server komplett umgebaut.
Hardware jetzt:
* Asus-Board (genau Bezeichnung jetzt nicht parat) mit Via-Apollo-Pro
133A Chipsatz
* Intel P3 533MHz
* 1x256MB, 2x128 MB (komplett anderer Speicher)
* den Brenner am Primary onBoard als Master
* eine Platte am Primary onBoard als Slave
* eine Platte am Secondary onBoard als Master
* 2 Platten am Promise Ultra 100, jeweils Master
* 1 Dual-Port Netzwerkkarte mit 2 Tulip-Chips
* ATI Rage2C Graka AGP
Habe also Board, Speicher und CPU gewechselt, eine Netzwerkkarte und den
TX2 rausgeschmissen.
Memtest86 findet jetzt keine Fehler mehr.
Trotzdem stürzt die Kiste immernoch dauernd ab. Die Fotos oben habe ich
auch mit der jetzigen Konfig gemacht.
Nach einem Absturz läuft oft ein Raid-Recovery, aber manchmal auch nicht.
Ein xfs_check hat keine Fehler gefunden.
Hab auch keine ungewöhnlichen Einträge in irgendwelchen Logs entdeckt.
Die Kernel-Config gibts hier: http://www.kargyboy.de/config.txt
Und ein DMESG habe ich für Euch natürlich auch:
http://www.kargyboy.de/dmesg.txt
Hat jemand ein Idee, wie ich jetzt weiterforschen könnte, um den Fehler
zu finden?
Ich habe keinen Plan mehr...
Vielen Dank fürs aufmerksame Durchlesen ;-)
Grüße!
Steffen Karge.
Mehr Informationen über die Mailingliste linux-l