[linux-l] Was hat mein Server für eine Krankheit?

Jan-Benedict Glaw jbglaw at lug-owl.de
So Jan 16 19:33:23 CET 2005


On Sun, 2005-01-16 19:12:04 +0100, Steffen Karge <karge.steffen at gmx.de>
wrote in message <41EAAE74.4000506 at gmx.de>:
[Abgeknipste Oopse]
> Sorry für Bilder, wollte das alles nicht abtippen.

> Folgende Konfiguration bildet die Ausgangslage:
> 
> * Soyo SY-6BA+ III Mainboard (Intel-BX) mit Tualatin-Celeron 1.2GHz
> * funktionierende Kühlung (und 5°C Raumtemperatur)
> * 4x256MB PC-133 SDRAM mit 100MHz betrieben
> * Promise Ultra100 mit 2 Maxtor 120GB-Platten jeweils als Master
> * Promise Fasttrak 100 mit 2 Maxtor 120GB-Platten jeweils als Master 
> (ist zwar ein Raid-Controller, dessen Raid-Funktionalität wird hier aber 
> nicht genutzt)
> * 1 Dual-Port Netzwerkkarte mit 2 Tulip-Chips
> * 1 Realtek-Netzwerkkarte
> * am Primary-onBoard noch ein LG 4042B DVD-Ram als Master
> * ATI Rage2C Graka AGP
> Nichts übertaktet oder so.
> Soviel zur Hardware.
> 
> Betriebssystem:
> Gentoo-Linux 2004.2
> 
> Kernel:
> Linux version 2.6.10 (root at node-1) (gcc version 3.3.4 20040623 (Gentoo 
> Linux 3.3.4-r1, ssp-3.3.2-2, pie-8.7.6)) #2 Fri Jan 14 23:55:07 CET 2005
> 
> Blockdevices:
> Filesystem  Type Size  Used Avail Use% Mounted on
> /dev/md2     xfs 2.9G  2.4G  494M  84% /
> Raid5 über die 4 Platten
> 
> /dev/md3     xfs  35G   23G   12G  66% /vm
> Raid5 über die 4 Platten
> 
> /dev/md4     xfs 6.7G  2.8G  3.9G  42% /squid_cache
> Raid5 über die 4 Platten
> 
> /dev/md0    ext2  19M  2.9M   16M  16% /boot
> Raid1 über die 4 Platten
> 
> none       tmpfs 253M     0  253M   0% /dev/shm
> 
> /dev/mapper/data
>              xfs 300G  204G   97G  68% /data
> Raid5 über die 4 Platten + DeviceMapper AES Encryption!!!

> Tja, die Fehler sieht man auf den Fotos oben. Die Kiste ist jedesmal 
> tot. Fehler tritt häufig unter hoher IO-Last auf, aber nicht immer.
> In letzter Zeit kommen die Fehler immer häufiger. Will meinen, es geht 
> schon länger so. Erst nur 1-2 Ausfälle im Monat, jetzt kann ich den 
> Crash in 5 Minuten provozieren, indem ich ich viel von den Platten lese. 
> Aber wie gesagt, es kommt auch vor, das der Server beim Nichtstun abranzt.

Oopse sind immer Kernel-Fehler (oder Hardware-Fehler).

> Gestern Memtest86 laufen lassen:
> Bingo. Fehler bei Test 5 (Block Move). Mehrmals bei diesem Test bei 
> genau 98% Fortschritt Fehler gefunden.
> Jedes Speichermodul einzeln getestet: Kein Fehler.
> Ein Modul in jedem der 4 Steckplätze getestet: Kein Fehler
> Wieder alle 4 Module, diesmal Reihenfolge in den Bänken umgetauscht: 
> Fehler bei Test 5 bei 98%.
> 
> Hmm. Das Board vielleicht futsch.
> 
> Also Server komplett umgebaut.

Gute Wahl:)

> Hardware jetzt:
> 
> * Asus-Board (genau Bezeichnung jetzt nicht parat) mit Via-Apollo-Pro 
> 133A Chipsatz
> * Intel P3 533MHz
> * 1x256MB, 2x128 MB (komplett anderer Speicher)
> * den Brenner am Primary onBoard als Master
> * eine Platte am Primary onBoard als Slave
> * eine Platte am Secondary onBoard als Master
> * 2 Platten am Promise Ultra 100, jeweils Master
> * 1 Dual-Port Netzwerkkarte mit 2 Tulip-Chips
> * ATI Rage2C Graka AGP
> 
> Habe also Board, Speicher und CPU gewechselt, eine Netzwerkkarte und den 
> TX2 rausgeschmissen.
> Memtest86 findet jetzt keine Fehler mehr.

Gut. Das ist eine Basis:)

> Trotzdem stürzt die Kiste immernoch dauernd ab. Die Fotos oben habe ich 
> auch mit der jetzigen Konfig gemacht.
> 
> Nach einem Absturz läuft oft ein Raid-Recovery, aber manchmal auch nicht.
> Ein xfs_check hat keine Fehler gefunden.
> 
> Hab auch keine ungewöhnlichen Einträge in irgendwelchen Logs entdeckt.
> 
> Die Kernel-Config gibts hier: http://www.kargyboy.de/config.txt
> Und ein DMESG habe ich für Euch natürlich auch: 
> http://www.kargyboy.de/dmesg.txt
> 
> 
> Hat jemand ein Idee, wie ich jetzt weiterforschen könnte, um den Fehler 
> zu finden?
> Ich habe keinen Plan mehr...

Erstmal brauchst Du den kompletten Oops; sollten bei einem dieser
Abstürze mehrere Oopse in Reihe ausgegeben werden, ist nur der erste
wirklich interessant.

Insbesondere, wenn die Kiste stirbt, ist es nicht ganz einfach, den Oops
aufzuzeichnen. Hier kannst Du mit serieller Console arbeiten; dabei
brauchst Du einen 2ten Rechner und ein gekreuztes serielles Kabel.

Wenn Du den hast, kann man da genauer draufgucken...

MfG, JBG

-- 
Jan-Benedict Glaw       jbglaw at lug-owl.de    . +49-172-7608481             _ O _
"Eine Freie Meinung in  einem Freien Kopf    | Gegen Zensur | Gegen Krieg  _ _ O
 fuer einen Freien Staat voll Freier Bürger" | im Internet! |   im Irak!   O O O
ret = do_actions((curr | FREE_SPEECH) & ~(NEW_COPYRIGHT_LAW | DRM | TCPA));
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : signature.asc
Dateityp    : application/pgp-signature
Dateigröße  : 189 bytes
Beschreibung: Digital signature
URL         : <https://mlists.in-berlin.de/pipermail/linux-l-mlists.in-berlin.de/attachments/20050116/d925a03a/attachment.sig>


Mehr Informationen über die Mailingliste linux-l