linux-l: Totalabsturz Kernel

Jens Dreger jens.dreger at physik.fu-berlin.de
Mi Jul 5 17:35:25 CEST 2000


On Wed, Jul 05, 2000 at 04:34:37PM +0200, Michael Weber wrote:
> Moin,
> 
> vielleicht hatte jemand schon einmal einen aehnlichen
> Fehler als Totalabsturzursache ?

Siehe dazu auch meine Anfrage auf linux-l ;-)

      http://ozwei4.tfh-berlin.de/BeLUG/msg03521.html

> stuck on TLB IPI wait (CPU#0)

Haengen geblieben im Translation Lookaside Buffer Inter-Processor-
Interrupt auf CPU 0. Oder so aehnlich ;)

> Dieser Fehler kommt auch mit CPU#1 ab und an. Es gibt
> aber scheinbar keine Regel dafuer.

Stimmt. Meine erste Vermutung, dass es was mit der Musik zu tun hatte,
hat sich wohl nicht bewahrheitet. Bei mir tritt der Fehler jedenfalls
nicht mehr auf. Natuerlich weiss ich nicht, was ich geaendert habe...

> Nachdem dieser Fehler nun zum viertenmal in 3 Wochen 
> aufgetreten ist, habe ich saemtliche Loglevel auf 
> "mehr als ausfuehrlich" gesetzt - meine Logdateien
> erreichen Windowsquellcode Format - erhalte aber null
> Aussagen. Der Kernel verabschiedet sich voellig still
> und vorallem wahllos.

Bei mir war das dann schon eher mehrmals am Tag aufgetreten. Also noch
alles im gruenen Bereich.

> Wenn jemand irgendeinen Hinweis hat, oder einen Tip
> wie man wenigstens eine gescheite Fehlermeldung kriegt,
> wuerde mir das echt weiterhelfen.

Das ist wohl ein ganz ganz tief liegendes Problem. Die eine CPU muss
der anderen CPU irgendwie mitteilen, wenn sie z.B. eine Stelle im
Speicher ueberschrieben hat, die letztere im Cache hat, das der
Cacheeintrag somit ja ungueltig wird. Fuer derlei Low-Level Zeugs gibt
es wohl diese InterprocessorInterrupts. Ist wohl recht schlimm, wenn
die CPU bei sowas haengenbleibt...

> Gefahren wird RedHat 5.2 mit Kernel 2.2.10 und einem
> Dualboard von ASUS mit 2 Pentium2 CPU's a 500 MHZ,
> normale Hardware a la Adaptec die auch in den Einzel-
> platzsystemen klaglos Ihren Dienst tut. Verwendet wird
> das ganze als Webserver mit Apache 1.3.9, MySQL 3.22.30,
> php 3.0.14 ... Standard also.

Wie gesagt, das Problem ist _Low_Level_. Ich wuerde die Suche nach
fehlerhaften Applications einstellen. Kernelupgrade ist sicherlich
eine feine Idee, wurde ja auch schon vorgeschlagen...

Gruss,

Jens.



Mehr Informationen über die Mailingliste linux-l