linux-l: SCSI Kabel oder Termination Probleme? Random lockups.

Stefan Bund asbund at gmx.de
Fr Dez 3 09:11:31 CET 1999


Hallo ihr lieben BeLUGa's :-)

Mal wieder 'ne Frage für euch... Ich habe mir einen neuen Rechner
zusammengestellt (Dual Pentium III, MSI 6120S mainboard mit AHA2940UW
on board). 

Nachdem ich jetzt also schon einige Zeig rumexperimentiert habe, muß
ich nochmal zu SCSI eine Frage stellen: Die UW Platte (Micropolis,
4GB) ist zur Zeit die einzige Platte am UW Bus. Leider arbeitet das
System alles andere als zuverlässig. Ich habe regelmäßig aber völlig
unsystematisch Hänger des SCSI Busses: da kommen dann lattenweise
timeout meldung des SCSI Treibers auf der Konsole und nix geht
mehr. Manchmal hilft einfach ein Reboot, manchmal hilft sogar ein SCSI
Kabel ab- und wieder anstecken nix, da geht's dann nach 5x rebooten
oder nach 2 Stungen oder ... Also zum ernsthaften Arbeiten nicht zu
gebrauchen.

Dazu kommt, das mir diese SCSI Bus abstürtze schon 2 Mal 'n ganzes
Verzeichnis Plattgemacht haben (einmal /lib, einmal /dev. Bei /lib bin
ich fast verrückt geworden, bis ich das wieder hingekriegt
habe...). Zur Zeit mache ich so ziemlich ununterbrochen Backups auf
meine IDE Platte ...

Eine weitere Eigenart ist, das immer mal wieder ein Prozeß einen
Kernel Null Pointer dereference erzeugt und dann abgeschossen
wird. Trifft sporadisch immer wieder verschiedene Prozesse, häufig
auch mal den idle Task oder einen Interrupthandler -> System lockup.

Ich habe den 2.2.14pre8 Kernel installiert, da der einige SMP+SCSI
Races korrigiert. aber das hat auch nix gebracht. Jetzt passieren die
Lockups häufiger ohne eine einzige Console-Message. Es geht einfach
plötzlich nix mehr (auch nicht über serielle Konsole oder Netzwerk).

Das komische ist, das ich diese Null-Pointer dereferences nicht
provozieren kann. Ich habe schon X-mal einen kernel mit make -j4 oder
so gebaut (So checke ich immer, ob vielleicht ein RAM- oder
Cachebaustein defekt ist). Immer fehlerfrei. Also wat nu?

Können diese Fehler irgendwie zusammenhängen?

Meine konkreten FRAGEN:

o Ich habe mir überlegt, ein besseres SCSI Kabel zu verwenden. In der
  Liste hatte mal einer was dazu gesagt. Nur: Wo kriege ich qualitativ
  hochwertige UW-SCSI Kabel?

o Ich muß die Terminierung noch mal überprüfen. Leider gibt's da auf
  der Festplatte 'ne ganze menge Optionen, mit denen ich nix anfangen
  kann: Drive provides Term power u.ä. (kann jetzt leider nicht
  nachschauen, da die Platte in betrieb ist :-). Falls ihr die Info
  braucht reiche ich sie nach)

o Kann das doch an defekten RAM's, Prozessoren, Cache, ??? liegen?
  Dann wie testen? Ich kann mir leider nicht einfach mal 2 PIII450's
  besorgen :-/ 

Also bitte meldet euch, wenn ihr 'ne idee habt. Das geht jetzt schon
ein paar Wochen so, und langsam verliere ich die Nerven. Ich brauche
den Rechner dringend zum Brötchenverdienen :-)

Stefan.



Mehr Informationen über die Mailingliste linux-l