[linux-l] Was hat mein Server für eine Krankheit?

Christoph Biedl cbiedl at gmx.de
So Jan 16 19:50:34 CET 2005


Steffen Karge wrote...

> Woher kommen diese Fehler?
> http://www.kargyboy.de/DSCF0001.jpg
> http://www.kargyboy.de/DSCF0002.jpg
> http://www.kargyboy.de/DSCF0003.jpg

Eieiei. kernel panic. Immer häßlich. Vor allem 0002 ist unspaßig.
Falls es nötig werden sollte: Setz die Konsolenauflösung hoch (vga=6
sollte immer tun), damit der Anfang der Meldung nicht rausscrollt.
Interessant ist vor allem, ob der Wert von EIP immer ähnlich/gleich ist
oder stark schwankt. Ich vermute letzteres, das bedeutet dann, daß
irgendwo tief in der Hardware ein Fisch ist, der dann später den Kernel
aus dem Takt bringt.


Für alles weitere: Ich habe keine konkrete Idee, was hier schiefgeht,
aber viele Ideen, um weiter anzusetzen. Am besten ist jetzt ein langes
Wochenende, damit Du ungestört schrauben und testen kannst. Gehe nicht
davon aus, daß das Problem mit einem Handgriff gelöst ist :-|

> Folgende Konfiguration bildet die Ausgangslage:
> 
> * Soyo SY-6BA+ III Mainboard (Intel-BX) mit Tualatin-Celeron 1.2GHz
> * funktionierende Kühlung (und 5°C Raumtemperatur)
> * 4x256MB PC-133 SDRAM mit 100MHz betrieben
> * Promise Ultra100 mit 2 Maxtor 120GB-Platten jeweils als Master
> * Promise Fasttrak 100 mit 2 Maxtor 120GB-Platten jeweils als Master 
> (ist zwar ein Raid-Controller, dessen Raid-Funktionalität wird hier aber 
> nicht genutzt)
> * 1 Dual-Port Netzwerkkarte mit 2 Tulip-Chips
> * 1 Realtek-Netzwerkkarte
> * am Primary-onBoard noch ein LG 4042B DVD-Ram als Master
> * ATI Rage2C Graka AGP
> Nichts übertaktet oder so.
> Soviel zur Hardware.

Wieviel kannst Du davon ausbauen und das Problem besteht weiterhin? Ich
würde
1. Netzwerkkarten raus
2. Einen Controller raus
3. Den ersten wieder rein, den zweiten raus.
4. Alle Speicherbausteine raus bis auf einen.

> Betriebssystem:
> Gentoo-Linux 2004.2
> 
> Kernel:
> Linux version 2.6.10 (root at node-1) (gcc version 3.3.4 20040623 (Gentoo 
> Linux 3.3.4-r1, ssp-3.3.2-2, pie-8.7.6)) #2 Fri Jan 14 23:55:07 CET 2005

Hm, Gentoo ist immer ziemlich weit vorne an der blutigen Kante. Schon
mal ein Knoppix gebootet, tritt das Problem weiterhin auf? Auch bin ich
bei 2.6.10 mißtrauisch, wie sieht's bei 2.6.8.1 aus?

(...)

> Gestern Memtest86 laufen lassen:
> Bingo. Fehler bei Test 5 (Block Move). Mehrmals bei diesem Test bei 
> genau 98% Fortschritt Fehler gefunden.

Timing im Bios etwas entspannter wählen?

(...)

> Hardware jetzt:
> 
> * Asus-Board (genau Bezeichnung jetzt nicht parat) mit Via-Apollo-Pro 
> 133A Chipsatz
> * Intel P3 533MHz
> * 1x256MB, 2x128 MB (komplett anderer Speicher)
> * den Brenner am Primary onBoard als Master
> * eine Platte am Primary onBoard als Slave
> * eine Platte am Secondary onBoard als Master
> * 2 Platten am Promise Ultra 100, jeweils Master
> * 1 Dual-Port Netzwerkkarte mit 2 Tulip-Chips
> * ATI Rage2C Graka AGP

Das schränkt die Verdächtigen auf Promise, NIC und Grafikkarte ein.
Modulo Überraschungen.

Wie wurden die Interrupts verteilt (/proc/interrupts)?

> Habe also Board, Speicher und CPU gewechselt, eine Netzwerkkarte und den 
> TX2 rausgeschmissen.
> Memtest86 findet jetzt keine Fehler mehr.
> 
> Trotzdem stürzt die Kiste immernoch dauernd ab. Die Fotos oben habe ich 
> auch mit der jetzigen Konfig gemacht.

Die genauen Meldungen werden interessant, wenn der Kernel immer an
derselben Stelle abstürzt. Behalte das mal im Auge.

    Christoph



Mehr Informationen über die Mailingliste linux-l