[linux-l] Re: [linux-l] Was hat mein Server für eine Krankheit?

Steffen Karge Karge.Steffen at gmx.de
Di Feb 8 07:09:48 CET 2005


So ,die Kiste läuft wieder stabil. Uptime jetzt 10 Tage und geschont wurde
er nicht.
Kernel 2.6.10 ist am Start.

Woher die Abstürze kamen?
Ein Stromstecker an einer Festplatte hatte einen Wackler. Fehlersuche macht
Spaß.

Vielen Dank und Grüße!

Steffen Karge.



> Hallo Leute.
> 
> Kurzversion:
> 
> Woher kommen diese Fehler?
> http://www.kargyboy.de/DSCF0001.jpg
> http://www.kargyboy.de/DSCF0002.jpg
> http://www.kargyboy.de/DSCF0003.jpg
> Sorry für Bilder, wollte das alles nicht abtippen.
> 
> 
> Lange Version:
> 
> Als fleißiger Mitleser hier auf der Liste weiß ich, dass es hier sehr 
> kompetente Leute gibt. Daher will ich mal mein Problem schildern, ich 
> selbst weiß nicht mehr weiter.
> Ich hoffe, es stört keinen, dass ich mich etwas länger auslasse, aber 
> ich denke, jede Info, die ich beibringe, braucht nicht erst extra 
> eingeholt werden.
> 
> 
> Folgende Konfiguration bildet die Ausgangslage:
> 
> * Soyo SY-6BA+ III Mainboard (Intel-BX) mit Tualatin-Celeron 1.2GHz
> * funktionierende Kühlung (und 5°C Raumtemperatur)
> * 4x256MB PC-133 SDRAM mit 100MHz betrieben
> * Promise Ultra100 mit 2 Maxtor 120GB-Platten jeweils als Master
> * Promise Fasttrak 100 mit 2 Maxtor 120GB-Platten jeweils als Master 
> (ist zwar ein Raid-Controller, dessen Raid-Funktionalität wird hier aber 
> nicht genutzt)
> * 1 Dual-Port Netzwerkkarte mit 2 Tulip-Chips
> * 1 Realtek-Netzwerkkarte
> * am Primary-onBoard noch ein LG 4042B DVD-Ram als Master
> * ATI Rage2C Graka AGP
> Nichts übertaktet oder so.
> Soviel zur Hardware.
> 
> Betriebssystem:
> Gentoo-Linux 2004.2
> 
> Kernel:
> Linux version 2.6.10 (root at node-1) (gcc version 3.3.4 20040623 (Gentoo 
> Linux 3.3.4-r1, ssp-3.3.2-2, pie-8.7.6)) #2 Fri Jan 14 23:55:07 CET 2005
> 
> Blockdevices:
> Filesystem  Type Size  Used Avail Use% Mounted on
> /dev/md2     xfs 2.9G  2.4G  494M  84% /
> Raid5 über die 4 Platten
> 
> /dev/md3     xfs  35G   23G   12G  66% /vm
> Raid5 über die 4 Platten
> 
> /dev/md4     xfs 6.7G  2.8G  3.9G  42% /squid_cache
> Raid5 über die 4 Platten
> 
> /dev/md0    ext2  19M  2.9M   16M  16% /boot
> Raid1 über die 4 Platten
> 
> none       tmpfs 253M     0  253M   0% /dev/shm
> 
> /dev/mapper/data
>               xfs 300G  204G   97G  68% /data
> Raid5 über die 4 Platten + DeviceMapper AES Encryption!!!
> 
> Swaps:
> Filename				Type	   Size	   Used	Priority
> /dev/ide/host0/bus0/target0/lun0/part5  partition  262040   0	1
> /dev/ide/host0/bus1/target0/lun0/part5  partition  262040   0	1
> /dev/ide/host2/bus0/target0/lun0/part5  partition  262040   0	1
> /dev/ide/host2/bus1/target0/lun0/part5  partition  262040   0	1
> 
> 
> Tja, die Fehler sieht man auf den Fotos oben. Die Kiste ist jedesmal 
> tot. Fehler tritt häufig unter hoher IO-Last auf, aber nicht immer.
> In letzter Zeit kommen die Fehler immer häufiger. Will meinen, es geht 
> schon länger so. Erst nur 1-2 Ausfälle im Monat, jetzt kann ich den 
> Crash in 5 Minuten provozieren, indem ich ich viel von den Platten lese. 
> Aber wie gesagt, es kommt auch vor, das der Server beim Nichtstun abranzt.
> 
> Mit Swapping hat es offenbar nichts zu tun, passiert auch, wenn nix 
> ausgelagert wurde.
> 
> Gestern Memtest86 laufen lassen:
> Bingo. Fehler bei Test 5 (Block Move). Mehrmals bei diesem Test bei 
> genau 98% Fortschritt Fehler gefunden.
> Jedes Speichermodul einzeln getestet: Kein Fehler.
> Ein Modul in jedem der 4 Steckplätze getestet: Kein Fehler
> Wieder alle 4 Module, diesmal Reihenfolge in den Bänken umgetauscht: 
> Fehler bei Test 5 bei 98%.
> 
> Hmm. Das Board vielleicht futsch.
> 
> Also Server komplett umgebaut.
> 
> Hardware jetzt:
> 
> * Asus-Board (genau Bezeichnung jetzt nicht parat) mit Via-Apollo-Pro 
> 133A Chipsatz
> * Intel P3 533MHz
> * 1x256MB, 2x128 MB (komplett anderer Speicher)
> * den Brenner am Primary onBoard als Master
> * eine Platte am Primary onBoard als Slave
> * eine Platte am Secondary onBoard als Master
> * 2 Platten am Promise Ultra 100, jeweils Master
> * 1 Dual-Port Netzwerkkarte mit 2 Tulip-Chips
> * ATI Rage2C Graka AGP
> 
> Habe also Board, Speicher und CPU gewechselt, eine Netzwerkkarte und den 
> TX2 rausgeschmissen.
> Memtest86 findet jetzt keine Fehler mehr.
> 
> Trotzdem stürzt die Kiste immernoch dauernd ab. Die Fotos oben habe ich 
> auch mit der jetzigen Konfig gemacht.
> 
> Nach einem Absturz läuft oft ein Raid-Recovery, aber manchmal auch nicht.
> Ein xfs_check hat keine Fehler gefunden.
> 
> Hab auch keine ungewöhnlichen Einträge in irgendwelchen Logs entdeckt.
> 
> Die Kernel-Config gibts hier: http://www.kargyboy.de/config.txt
> Und ein DMESG habe ich für Euch natürlich auch: 
> http://www.kargyboy.de/dmesg.txt
> 
> 
> Hat jemand ein Idee, wie ich jetzt weiterforschen könnte, um den Fehler 
> zu finden?
> Ich habe keinen Plan mehr...
> 
> Vielen Dank fürs aufmerksame Durchlesen ;-)
> 
> Grüße!
> 
> Steffen Karge.
> _______________________________________________
> linux-l mailing list
> linux-l at mlists.in-berlin.de
> Die Mailingliste der BeLUG (Berliner Linux User Group)
> 
> Wenn du diese Mailingliste  abbestellen willst, gehe bitte auf
> https://mlists.in-berlin.de/mailman/listinfo/linux-l
> und trage dich dort bitte aus
> 



Mehr Informationen über die Mailingliste linux-l