Forum Linux.noyau Kernel Oops

Posté par  (site web personnel) .
Étiquettes :
0
1
fév.
2007
Bonjour

J'ai régulièrement sur mon poste le message suivant:

Feb  1 21:42:15 workine kernel: BUG: unable to handle kernel paging request at virtual address ffffffff

Feb 1 21:42:15 workine kernel: printing eip:
Feb 1 21:42:15 workine kernel: f3e5de98
Feb 1 21:42:15 workine kernel: *pde = 00004067
Feb 1 21:42:15 workine kernel: *pte = 00000000
Feb 1 21:42:15 workine kernel: Oops: 0002 [#1]
Feb 1 21:42:15 workine kernel: SMP
Feb 1 21:42:15 workine kernel: Modules linked in: binfmt_misc ipv6 fuse nfs lockd nfs_acl sunrpc raid0 dm_snapshot dm_mirror dm_mod snd_cmipci gameport snd_pcm snd_page_alloc snd_opl3_lib snd_timer snd_hwdep snd_mpu401_uart snd_rawmidi snd_seq_device rt61 snd soundcore psmouse i2c_nforce2 serio_raw rtc i2c_core shpchp pci_hotplug pcspkr nvidia_agp agpgart evdev tsdev ext3 jbd mbcache raid1 md_mod ide_generic sd_mod ide_cd cdrom ide_disk sata_nv usbhid generic sata_sil libata scsi_mod ohci_hcd amd74xx ide_core forcedeth usbcore thermal processor fan
Feb 1 21:42:15 workine kernel: CPU: 0
Feb 1 21:42:15 workine kernel: EIP: 0060:[] Not tainted VLI
Feb 1 21:42:15 workine kernel: EFLAGS: 00210286 (2.6.18-3-k7 #1)
Feb 1 21:42:15 workine kernel: EIP is at 0xf3e5de98
Feb 1 21:42:15 workine kernel: eax: ffffffff ebx: c0279cdb ecx: 00000000 edx: f3f23ac0
Feb 1 21:42:15 workine kernel: esi: f3e5deb4 edi: f3e5ded0 ebp: f3f23ac0 esp: f3e5de34
Feb 1 21:42:15 workine kernel: ds: 007b es: 007b ss: 0068
Feb 1 21:42:15 workine kernel: Process deskbar-applet (pid: 3288, ti=f3e5c000 task=f3eef550 task.ti=f3e5c000)
Feb 1 21:42:15 workine kernel: Stack: f3f23920 00000000 00000008 00000cd8 000004d2 000004d2 00000000 00000000
Feb 1 21:42:15 workine kernel: 00000000 00000000 c0294880 f3e5deb4 f3eed1e0 00000008 c0222254 00000008
Feb 1 21:42:15 workine kernel: f3e5defc f3e5defc 00000008 f3e5de94 00000000 c02227ae f3e5ded0 00000001
Feb 1 21:42:15 workine kernel: Call Trace:
Feb 1 21:42:15 workine kernel: [] do_sock_write+0xa3/0xaa
Feb 1 21:42:15 workine kernel: [] sock_aio_write+0x53/0x61
Feb 1 21:42:15 workine kernel: [] do_sync_write+0xb6/0xf1
Feb 1 21:42:15 workine kernel: [] hid_irq_in+0x83/0xcc [usbhid]
Feb 1 21:42:15 workine kernel: [] autoremove_wake_function+0x0/0x2d
Feb 1 21:42:15 workine kernel: [] sock_ioctl+0x0/0x1b3
Feb 1 21:42:15 workine kernel: [] vfs_write+0xb2/0x143
Feb 1 21:42:15 workine kernel: [] sys_write+0x3c/0x63
Feb 1 21:42:15 workine kernel: [] syscall_call+0x7/0xb
Feb 1 21:42:15 workine kernel: Code: 22 22 c0 08 00 00 00 fc de e5 f3 fc de e5 f3 08 00 00 00 94 de e5 f3 00 00 00 00 ae 27 22 c0 d0 de e5 f3 01 00 00 00 a8 de e5 f3 <00> 00 00 00 40 00 00 00 08 00 00 00 e0 d1 ee f3 17 00 00 00 40
Feb 1 21:42:15 workine kernel: EIP: [] 0xf3e5de98 SS:ESP 0068:f3e5de34


Le processus incriminé ( dans ce cas, deskbar-applet ) n'est jamais le même.

Ne voyant pas trop par où commencer mon "googlin' ", je m'adresse ici.

Pour information, le cpu est un athlon xp 1800, le noyau un 2.6.18-3-k7 tout droit sorti du dernier package debian sid.

Merci pour toute suggestion

Salutations
  • # Ben...

    Posté par  . Évalué à 1.

    Si la stack trace ici est correcte (pas sur vu qu'il ne semble pas y avoir les symbols de debuggage correspondants) je te propose de faire d'abord un test de ta RAM, puis ensuite de regarder tes crashs et voir si ils se produisent constamment quand tu fais des I/O (cf. vfs_write), si c'est le cas, tu peux essayer de determiner si c'est toujours sur le meme device (carte reseau, cle USB, ...) et ensuite voir si c'est pas par hasard le driver de ce dernier qui pose probleme, voir un probleme hardware.

    Si c'est toujours pas le cas, ben faudra soit trouver qq'un pour debugger ca ou mettre un kernel debugger et plonger les mains dans le cambouis, si t'as jamais debugge un kernel ca risque d'etre douloureux.
    • [^] # Re: Ben...

      Posté par  (site web personnel) . Évalué à 1.

      Merci !

      Je vais déjà faire un memtest cette nuit.

      Pour ce qui est de "regarder mes crashs", vu que c'est une machine de prod, avec des montages nfs, des process qui courent dans tous les sens, ça va pas être évident.

      En tout cas c'est très aléatoire, rien qui me permette d'incriminer un materiel ou une opération particulière.

      Encore merci pour les pistes.

      Salutations
  • # Que donne une mise à jour du kernel ?

    Posté par  . Évalué à 1.

    d'après
    http://packages.debian.org/unstable/allpackages
    La dernière version du noyau fournie par débian est le
    2.6.18.4

    Autre piste : utilises-tu des modules propriétaires ?
    • [^] # Re: Que donne une mise à jour du kernel ?

      Posté par  (site web personnel) . Évalué à 1.

      Autre piste : utilises-tu des modules propriétaires ?

      Non, pas de module proprio à part vmware, mais ils n'étaient pas chargés lors du dernier "oops" ( je pensais que ça venait de là ).

      Pour la mise à jour noyau, je vais regarder mais la précédente distribe installée sur ce poste ( ubuntu ) n'était pas plus stable ( c'est d'ailleurs pour ça que je suis repassé à sid ).

      Merci !

      /me qui attend que memtest se termine
  • # Résultat memtest

    Posté par  (site web personnel) . Évalué à 1.

    Le memtest n'a détecté aucune erreur après 7 passages...

    Je viens de mettre à jour le noyal.

    On verra bien ...
    • [^] # Re: Résultat memtest

      Posté par  (site web personnel) . Évalué à 1.

      Juste pour dire que je n'ai pas eu de soucis depuis jeudi, à part vmware ( mais ça c'est une autre histoire ).

      Merci pour votre aide.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.