[linux-l] Was hat mein Server für eine Krankheit?
Tobias Strauß
tac at gmx.li
Mo Jan 17 10:51:16 CET 2005
Hi Steffen,
auch eine defekte PCI-Karte kann das Board durcheinanderbringen,
die Grafikkarte solltest du mal wechseln. Nimm alles raus was nicht zum
testen benötigt wird.
Tobias
Steffen Karge wrote:
> Hallo Leute.
>
> Kurzversion:
>
> Woher kommen diese Fehler?
> http://www.kargyboy.de/DSCF0001.jpg
> http://www.kargyboy.de/DSCF0002.jpg
> http://www.kargyboy.de/DSCF0003.jpg
> Sorry für Bilder, wollte das alles nicht abtippen.
>
>
> Lange Version:
>
> Als fleißiger Mitleser hier auf der Liste weiß ich, dass es hier sehr
> kompetente Leute gibt. Daher will ich mal mein Problem schildern, ich
> selbst weiß nicht mehr weiter.
> Ich hoffe, es stört keinen, dass ich mich etwas länger auslasse, aber
> ich denke, jede Info, die ich beibringe, braucht nicht erst extra
> eingeholt werden.
>
>
> Folgende Konfiguration bildet die Ausgangslage:
>
> * Soyo SY-6BA+ III Mainboard (Intel-BX) mit Tualatin-Celeron 1.2GHz
> * funktionierende Kühlung (und 5°C Raumtemperatur)
> * 4x256MB PC-133 SDRAM mit 100MHz betrieben
> * Promise Ultra100 mit 2 Maxtor 120GB-Platten jeweils als Master
> * Promise Fasttrak 100 mit 2 Maxtor 120GB-Platten jeweils als Master
> (ist zwar ein Raid-Controller, dessen Raid-Funktionalität wird hier aber
> nicht genutzt)
> * 1 Dual-Port Netzwerkkarte mit 2 Tulip-Chips
> * 1 Realtek-Netzwerkkarte
> * am Primary-onBoard noch ein LG 4042B DVD-Ram als Master
> * ATI Rage2C Graka AGP
> Nichts übertaktet oder so.
> Soviel zur Hardware.
>
> Betriebssystem:
> Gentoo-Linux 2004.2
>
> Kernel:
> Linux version 2.6.10 (root at node-1) (gcc version 3.3.4 20040623 (Gentoo
> Linux 3.3.4-r1, ssp-3.3.2-2, pie-8.7.6)) #2 Fri Jan 14 23:55:07 CET 2005
>
> Blockdevices:
> Filesystem Type Size Used Avail Use% Mounted on
> /dev/md2 xfs 2.9G 2.4G 494M 84% /
> Raid5 über die 4 Platten
>
> /dev/md3 xfs 35G 23G 12G 66% /vm
> Raid5 über die 4 Platten
>
> /dev/md4 xfs 6.7G 2.8G 3.9G 42% /squid_cache
> Raid5 über die 4 Platten
>
> /dev/md0 ext2 19M 2.9M 16M 16% /boot
> Raid1 über die 4 Platten
>
> none tmpfs 253M 0 253M 0% /dev/shm
>
> /dev/mapper/data
> xfs 300G 204G 97G 68% /data
> Raid5 über die 4 Platten + DeviceMapper AES Encryption!!!
>
> Swaps:
> Filename Type Size Used Priority
> /dev/ide/host0/bus0/target0/lun0/part5 partition 262040 0 1
> /dev/ide/host0/bus1/target0/lun0/part5 partition 262040 0 1
> /dev/ide/host2/bus0/target0/lun0/part5 partition 262040 0 1
> /dev/ide/host2/bus1/target0/lun0/part5 partition 262040 0 1
>
>
> Tja, die Fehler sieht man auf den Fotos oben. Die Kiste ist jedesmal
> tot. Fehler tritt häufig unter hoher IO-Last auf, aber nicht immer.
> In letzter Zeit kommen die Fehler immer häufiger. Will meinen, es geht
> schon länger so. Erst nur 1-2 Ausfälle im Monat, jetzt kann ich den
> Crash in 5 Minuten provozieren, indem ich ich viel von den Platten lese.
> Aber wie gesagt, es kommt auch vor, das der Server beim Nichtstun abranzt.
>
> Mit Swapping hat es offenbar nichts zu tun, passiert auch, wenn nix
> ausgelagert wurde.
>
> Gestern Memtest86 laufen lassen:
> Bingo. Fehler bei Test 5 (Block Move). Mehrmals bei diesem Test bei
> genau 98% Fortschritt Fehler gefunden.
> Jedes Speichermodul einzeln getestet: Kein Fehler.
> Ein Modul in jedem der 4 Steckplätze getestet: Kein Fehler
> Wieder alle 4 Module, diesmal Reihenfolge in den Bänken umgetauscht:
> Fehler bei Test 5 bei 98%.
>
> Hmm. Das Board vielleicht futsch.
>
> Also Server komplett umgebaut.
>
> Hardware jetzt:
>
> * Asus-Board (genau Bezeichnung jetzt nicht parat) mit Via-Apollo-Pro
> 133A Chipsatz
> * Intel P3 533MHz
> * 1x256MB, 2x128 MB (komplett anderer Speicher)
> * den Brenner am Primary onBoard als Master
> * eine Platte am Primary onBoard als Slave
> * eine Platte am Secondary onBoard als Master
> * 2 Platten am Promise Ultra 100, jeweils Master
> * 1 Dual-Port Netzwerkkarte mit 2 Tulip-Chips
> * ATI Rage2C Graka AGP
>
> Habe also Board, Speicher und CPU gewechselt, eine Netzwerkkarte und den
> TX2 rausgeschmissen.
> Memtest86 findet jetzt keine Fehler mehr.
>
> Trotzdem stürzt die Kiste immernoch dauernd ab. Die Fotos oben habe ich
> auch mit der jetzigen Konfig gemacht.
>
> Nach einem Absturz läuft oft ein Raid-Recovery, aber manchmal auch nicht.
> Ein xfs_check hat keine Fehler gefunden.
>
> Hab auch keine ungewöhnlichen Einträge in irgendwelchen Logs entdeckt.
>
> Die Kernel-Config gibts hier: http://www.kargyboy.de/config.txt
> Und ein DMESG habe ich für Euch natürlich auch:
> http://www.kargyboy.de/dmesg.txt
>
>
> Hat jemand ein Idee, wie ich jetzt weiterforschen könnte, um den Fehler
> zu finden?
> Ich habe keinen Plan mehr...
>
> Vielen Dank fürs aufmerksame Durchlesen ;-)
>
> Grüße!
>
> Steffen Karge.
> _______________________________________________
> linux-l mailing list
> linux-l at mlists.in-berlin.de
> Die Mailingliste der BeLUG (Berliner Linux User Group)
>
> Wenn du diese Mailingliste abbestellen willst, gehe bitte auf
> https://mlists.in-berlin.de/mailman/listinfo/linux-l
> und trage dich dort bitte aus
>
>
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname : smime.p7s
Dateityp : application/x-pkcs7-signature
Dateigröße : 2186 bytes
Beschreibung: S/MIME Cryptographic Signature
URL : <https://mlists.in-berlin.de/pipermail/linux-l-mlists.in-berlin.de/attachments/20050117/c61eb5b5/attachment.bin>
Mehr Informationen über die Mailingliste linux-l