[linux-l] Was hat mein Server für eine Krankheit?

Tobias Strauß tac at gmx.li
Mo Jan 17 10:51:16 CET 2005


Hi Steffen,

auch eine defekte PCI-Karte kann das Board durcheinanderbringen,
die Grafikkarte solltest du mal wechseln. Nimm alles raus was nicht zum 
testen benötigt wird.

Tobias

Steffen Karge wrote:
> Hallo Leute.
> 
> Kurzversion:
> 
> Woher kommen diese Fehler?
> http://www.kargyboy.de/DSCF0001.jpg
> http://www.kargyboy.de/DSCF0002.jpg
> http://www.kargyboy.de/DSCF0003.jpg
> Sorry für Bilder, wollte das alles nicht abtippen.
> 
> 
> Lange Version:
> 
> Als fleißiger Mitleser hier auf der Liste weiß ich, dass es hier sehr 
> kompetente Leute gibt. Daher will ich mal mein Problem schildern, ich 
> selbst weiß nicht mehr weiter.
> Ich hoffe, es stört keinen, dass ich mich etwas länger auslasse, aber 
> ich denke, jede Info, die ich beibringe, braucht nicht erst extra 
> eingeholt werden.
> 
> 
> Folgende Konfiguration bildet die Ausgangslage:
> 
> * Soyo SY-6BA+ III Mainboard (Intel-BX) mit Tualatin-Celeron 1.2GHz
> * funktionierende Kühlung (und 5°C Raumtemperatur)
> * 4x256MB PC-133 SDRAM mit 100MHz betrieben
> * Promise Ultra100 mit 2 Maxtor 120GB-Platten jeweils als Master
> * Promise Fasttrak 100 mit 2 Maxtor 120GB-Platten jeweils als Master 
> (ist zwar ein Raid-Controller, dessen Raid-Funktionalität wird hier aber 
> nicht genutzt)
> * 1 Dual-Port Netzwerkkarte mit 2 Tulip-Chips
> * 1 Realtek-Netzwerkkarte
> * am Primary-onBoard noch ein LG 4042B DVD-Ram als Master
> * ATI Rage2C Graka AGP
> Nichts übertaktet oder so.
> Soviel zur Hardware.
> 
> Betriebssystem:
> Gentoo-Linux 2004.2
> 
> Kernel:
> Linux version 2.6.10 (root at node-1) (gcc version 3.3.4 20040623 (Gentoo 
> Linux 3.3.4-r1, ssp-3.3.2-2, pie-8.7.6)) #2 Fri Jan 14 23:55:07 CET 2005
> 
> Blockdevices:
> Filesystem  Type Size  Used Avail Use% Mounted on
> /dev/md2     xfs 2.9G  2.4G  494M  84% /
> Raid5 über die 4 Platten
> 
> /dev/md3     xfs  35G   23G   12G  66% /vm
> Raid5 über die 4 Platten
> 
> /dev/md4     xfs 6.7G  2.8G  3.9G  42% /squid_cache
> Raid5 über die 4 Platten
> 
> /dev/md0    ext2  19M  2.9M   16M  16% /boot
> Raid1 über die 4 Platten
> 
> none       tmpfs 253M     0  253M   0% /dev/shm
> 
> /dev/mapper/data
>              xfs 300G  204G   97G  68% /data
> Raid5 über die 4 Platten + DeviceMapper AES Encryption!!!
> 
> Swaps:
> Filename                Type       Size       Used    Priority
> /dev/ide/host0/bus0/target0/lun0/part5  partition  262040   0    1
> /dev/ide/host0/bus1/target0/lun0/part5  partition  262040   0    1
> /dev/ide/host2/bus0/target0/lun0/part5  partition  262040   0    1
> /dev/ide/host2/bus1/target0/lun0/part5  partition  262040   0    1
> 
> 
> Tja, die Fehler sieht man auf den Fotos oben. Die Kiste ist jedesmal 
> tot. Fehler tritt häufig unter hoher IO-Last auf, aber nicht immer.
> In letzter Zeit kommen die Fehler immer häufiger. Will meinen, es geht 
> schon länger so. Erst nur 1-2 Ausfälle im Monat, jetzt kann ich den 
> Crash in 5 Minuten provozieren, indem ich ich viel von den Platten lese. 
> Aber wie gesagt, es kommt auch vor, das der Server beim Nichtstun abranzt.
> 
> Mit Swapping hat es offenbar nichts zu tun, passiert auch, wenn nix 
> ausgelagert wurde.
> 
> Gestern Memtest86 laufen lassen:
> Bingo. Fehler bei Test 5 (Block Move). Mehrmals bei diesem Test bei 
> genau 98% Fortschritt Fehler gefunden.
> Jedes Speichermodul einzeln getestet: Kein Fehler.
> Ein Modul in jedem der 4 Steckplätze getestet: Kein Fehler
> Wieder alle 4 Module, diesmal Reihenfolge in den Bänken umgetauscht: 
> Fehler bei Test 5 bei 98%.
> 
> Hmm. Das Board vielleicht futsch.
> 
> Also Server komplett umgebaut.
> 
> Hardware jetzt:
> 
> * Asus-Board (genau Bezeichnung jetzt nicht parat) mit Via-Apollo-Pro 
> 133A Chipsatz
> * Intel P3 533MHz
> * 1x256MB, 2x128 MB (komplett anderer Speicher)
> * den Brenner am Primary onBoard als Master
> * eine Platte am Primary onBoard als Slave
> * eine Platte am Secondary onBoard als Master
> * 2 Platten am Promise Ultra 100, jeweils Master
> * 1 Dual-Port Netzwerkkarte mit 2 Tulip-Chips
> * ATI Rage2C Graka AGP
> 
> Habe also Board, Speicher und CPU gewechselt, eine Netzwerkkarte und den 
> TX2 rausgeschmissen.
> Memtest86 findet jetzt keine Fehler mehr.
> 
> Trotzdem stürzt die Kiste immernoch dauernd ab. Die Fotos oben habe ich 
> auch mit der jetzigen Konfig gemacht.
> 
> Nach einem Absturz läuft oft ein Raid-Recovery, aber manchmal auch nicht.
> Ein xfs_check hat keine Fehler gefunden.
> 
> Hab auch keine ungewöhnlichen Einträge in irgendwelchen Logs entdeckt.
> 
> Die Kernel-Config gibts hier: http://www.kargyboy.de/config.txt
> Und ein DMESG habe ich für Euch natürlich auch: 
> http://www.kargyboy.de/dmesg.txt
> 
> 
> Hat jemand ein Idee, wie ich jetzt weiterforschen könnte, um den Fehler 
> zu finden?
> Ich habe keinen Plan mehr...
> 
> Vielen Dank fürs aufmerksame Durchlesen ;-)
> 
> Grüße!
> 
> Steffen Karge.
> _______________________________________________
> linux-l mailing list
> linux-l at mlists.in-berlin.de
> Die Mailingliste der BeLUG (Berliner Linux User Group)
> 
> Wenn du diese Mailingliste  abbestellen willst, gehe bitte auf
> https://mlists.in-berlin.de/mailman/listinfo/linux-l
> und trage dich dort bitte aus
> 
> 
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : smime.p7s
Dateityp    : application/x-pkcs7-signature
Dateigröße  : 2186 bytes
Beschreibung: S/MIME Cryptographic Signature
URL         : <https://mlists.in-berlin.de/pipermail/linux-l-mlists.in-berlin.de/attachments/20050117/c61eb5b5/attachment.bin>


Mehr Informationen über die Mailingliste linux-l