[linux-l] temporäre Dateifehler

Stefan Bund sbund at artec-berlin.com
Do Aug 7 12:49:42 CEST 2003


Also hier mal eine neue Nuss zum knacken :-)

Ich erlebe jetzt seit geraumer Zeit auf meinem Laptop temporäre
Lesefehler bei Festplattenzugriffen. Jetzt nicht vorschnell einfach
auf kaputte Festplatte schließen, ich denke nicht, dass das so einfach
ist.

Der Fehler tritt, so weit ich das bis jetzt feststellen konnte, *nur*
während des Bootvorganges auf und, zumindest bis jetzt, nur bei
einzelnen Dateien unter /lib. Der Fehler betrifft immer die selben
Dateien, jedoch nicht immer genau die gleichen Dateien in einem
einzelnen Bootvorgang: So sind z.Bsp. librt.so, libresolv.so und
libpthread.so betroffen, aber bei einem Bootvorgang tritt der Fehler
z.Bsp. nur in librt.so auf, nach einem Reboot vielleicht in
libresolv.so. Ich hoffe, das ist soweit verständlich.

Der Fehler äußert sich *nicht* in einem Festplattenzugriffsfehler
sondern darin, dass fehlerhafte Daten gelesen werden. Die
Fehlermeldungen reichen von 'invalid ELF header' über 'error loading
shared library: invalid arguments' bis hin zu SIGSEGV oder SIGILL.

Dieses Verhalten lässt für mich auf folgendes schließen: Beim ersten
Zugriff auf die betroffene Datei werden fehlerhafte Daten in den
buffer-cache gelesen. Dieser Lesefehler wird *nicht* bemerkt. Von da
an, werden sämtliche Zugriffe vom buffer-cache befriedigt. Daher tritt
der Fehler dann konsistent bei dieser Datei immer wieder auf.

Was ich nicht verstehe ist, wie es sein kann, das *manchmal*
fehlerhafte Daten gelesen werdem, *ohne* das dies von der Festplatte
bemerkt wird: Soweit ich weiß, werden die Festplattensektoren ja mit
einer Prüfsumme versehen. Ist ein Sektor defekt, wird dies anhand der
Prüfsumme vom Festplattentreiber (bzw. auf der Hardwareebene)
bemerkt. Das sich *manchmal* *zufällig* sowohl die Daten als auch die
Prüfsumme genau so ändern, das die Prüfsumme wieder stimmt halte ich
für exorbitant unwarscheinlich ...

Zusammenfassung:
  o Bei einzelnen Dateien treten *manchmal* Lesefehler in Form von
    defekten Daten auf.
  o Falls der Fehler auftritt, sind immer wieder die selben Dateien
    betroffen
  o Der Fehler konnte bis jetzt *nur* während des Bootvorganges
    beobachtet werden.

Ich habe keine Ahnung, was ich mit diesem Fehler machen soll... heute
morgen war es so krass, das ich meinen Laptop wohl 20 mal booten
und dann hatte ich plötzlich einen Fehler beim fsck ... und zwar genau
diese Dateien betreffend. Die exakte Fehlermeldung war zu lang, als
das ich es jetzt noch weiß, aber irgend was mit kaputten
inode-Zuordnungen.

Was ich daraus genau schließen soll, weiß ich jetzt auch nicht. Ich
habe /lib einfach von meinem letzten Backup wieder hergestellt, und
jetzt geht alles, ABER ich habe ein SEHR mulmiges Gefühl in der
Magengegend.

Was habe ich bis jetzt gemacht:
  o Ich habe meinen Speicher mit memtest86 überprüft.
  o Ich habe die Platte mehrmals mit dd nach /dev/null geschrieben,
    aber es gibt ja keine Zugriffsfehler sondern kaputte Daten ...

Ich suche jetzt als nächstes ein Tool, das solche Lesefehler finden
kann, irgend ein Festplattendiagnosetool für Linux. Das Blöde ist, der
Fehler ist ja nicht ständig da und eine zweite Notebookfestplatte zum
Probeweisen Austauschen habe ich nun auch nicht gerade rumfliegen.

Ich habe mir schon den Kopf zerbrochen, woran dieser Fehler liegen
kann, und bin nicht wirklich weiter gekommen: Defekter
Festplattencontroller? Aber warum dann nur genau diese Dateien
bzw. Festplattenbereiche? Defekte Platte, aber warum dann keine
Fehlermeldung vom Festplattentreiber?

So, das war jetzt eine etwas lange Mail ... jetzt seid Ihr dran ...

Stefan.

PS: Ich verspreche, das ich mich durch Antworten auf andere Fragen
revanchiere :-)

-- 
Stefan Bund, Dipl.Phys.                   a   r   T   e  c      _____
Entwicklung, Administration               visual solutions     / |  /|
                                                              |----/_|
sbund at artec-berlin.com                                        | /  | /
Fon: 030 / 884684-0 | Fax: 030 / 884684-15                    |/___|/

Gottfried-von-Cramm-Weg 35-37 | Berlin | 14193 | http://www.artec-berlin.com




Mehr Informationen über die Mailingliste linux-l