Forum Linux.noyau Erreur matérielle MCE

Posté par (page perso) . Licence CC by-sa
Tags : aucun
0
23
oct.
2017

Salut à tous,
Depuis quelque temps, mon HTPC reboote tous seul. Dernièrement, le démarrage tourne en boucle en affichant des erreurs "[mce] Hardware Error …".

En me renseignant un peu, il semblerait que les erreurs "mce" sont remontées par le CPU pour indiquer précisément d'où vient la panne, mais je ne trouve pas comment décoder ces erreurs.

Avant d'envisager le remplacement complet (alors qu'il s'agit peut-être juste de la RAM ou du CPU), connaissez-vous un tel outil ? Ou bien où m'adresser ?

Pour info, la plateforme est constituée de : Athlon 5150, Asrock AM1H-ITX
Les erreurs:

Hardware Error: CPU 0: Machine Check: 0 Bank4: f600000000070f0f
Hardware Error: TSC 0 ADDR ff900198
Hardware Error: PROCESSOR 2:700f01 TIME 1508410545 SOCKET 0 APIC 0 microcode 700010b

Cordialement,
Jean

  • # Quelques vérifications

    Posté par . Évalué à 3 (+1/-0).

    Bonjour,

    Avant de changer le matériel, il serait bon de faire certains tests :
    - tester la RAM avec memtest ;
    - utiliser les réglages « par défaut » du BIOS (pas d'overclocking ou autres réglages exotiques) ;
    - tester avec une autre version du noyau (essayer de démarrer sur un système sur clé USB par exemple);
    - tester avec ou sans le paquet qui fournit le microcode pour les cpu AMD ;
    - utiliser mcelog pour avoir plus d'informations;

    • [^] # Re: Quelques vérifications

      Posté par (page perso) . Évalué à 1 (+0/-0).

      Salut,
      Merci pour ces infos.
      J'ai déjà lancé un memtest et je vais essayer le reste.
      Par contre, pour mcelog, le problème c'est justement que les erreurs arrivent dès le début du boot. Je n'ai donc aucun log…

      En fait, j'aurais surtout besoin d'une "base de données" des MCE. Je n'ai que des "photos d'écran", au sens propre, de l'erreur.

      Merci,
      Jean

      • [^] # Re: Quelques vérifications

        Posté par . Évalué à 2 (+1/-0).

        Il arrive aussi que changer d'alim résolve le problème (le CPU peut faire n'importe quoi à cause d'une tension instable), mais comme la plupart des problèmes matériel, la seule solution est de tester..

        • [^] # Re: Quelques vérifications

          Posté par (page perso) . Évalué à 1 (+0/-0).

          Bon, je pense avoir trouvé: contrôleur SATA additionnel de la carte mère.

          Ça ne me dit toujours pas comment décoder les MCE.
          En ce qui concerne l'alim: je suis d'accord elle est souvent à l'origine des problèmes "randoms". Mais du coup, j'achète rarement du bas de gamme pour cet élément.

          Merci pour tes conseils en tous cas.

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.