Problème d'OOM killer sur un NAS LaCie

Bonjour,
J'utilise un nas Lacie Network Space 1To, et je rencontre des problèmes avec OOM killer qui se déclenche, alors que le swap n'est quasiment pas utilisé.

La machine dispose d'un (vieux) kernel 2.6.12.6-arm1, et ne fait tourner qu'un samba, un sshd et un ntpd :



  PID USER       VSZ STAT COMMAND


    1 root      3296 S    init       


    2 root         0 SWN  [ksoftirqd/0]


    3 root         0 SW<  [events/0]


    4 root         0 SW<  [khelper]


    5 root         0 SW<  [kthread]


   10 root         0 SW<  [kblockd/0]


   13 root         0 SW   [khubd]


   48 root         0 SW   [pdflush]


   49 root         0 SW   [pdflush]


   51 root         0 SW<  [aio/0]


   50 root         0 SW   [kswapd0]


  167 root         0 SW   [scsi_eh_0]


  201 root         0 SW   [kjournald]


  247 root         0 SW   [kjournald]


  249 root         0 SW   [kjournald]


  379 root      3296 S    syslogd -m 0 


  390 root      3296 S    klogd -c 2 


  409 root         0 SW<  [xfslogd/0]


  410 root         0 SW<  [xfsdatad/0]


  411 root         0 SW   [xfsbufd]


  442 root      7592 S    /opt/sbin/nmbd -D 


  445 root     14188 S    /opt/sbin/smbd -D 


  481 root         0 SW   [xfssyncd]


  754 root      3300 S    /sbin/udhcpc -b -i egiga0 -p /var/run/udhcpc-egiga0.pid -s /etc/sysconfig/udhcpc.script -F monNas 


  783 root      1524 S    /usr/sbin/ifplugd -i egiga0 -fwI -u10 -d0 --run=/etc/ifplugd/ifplugd.action 


  830 root      3164 S    /usr/bin/ipconfd 


  857 root      3608 S    /opt/sbin/sshd 


  873 root      1568 S <  /sbin/udevd --daemon 


  930 root      4188 S    ntpd 


  998 root      3300 S    /sbin/getty 115200 ttyS0 vt100 


  999 root      3804 S    sshd: root@ttyp0  


 1002 root      3456 S    -sh 


 1146 root     15068 S    /opt/sbin/smbd -D 


 1158 root      2756 R    ps

Régulièrement, oom-killer se déclenche, alors que le swap n'a que 3Mo d'utilisé sur 128Mo, et tue le smbd :



              total         used         free       shared      buffers


  Mem:        13588        11988         1600            0          160


 Swap:       128448         3056       125392


Total:       142036        15044       126992

J'ai essayé de bidouiller les paramètres vm.overcommit_memory et vm.swappiness mais sans succès. Voici leur valeur actuelle :



sysctl -a |grep vm


vm.swap_token_timeout = 300


vm.vfs_cache_pressure = 100


vm.block_dump = 0


vm.laptop_mode = 0


vm.max_map_count = 65536


vm.min_free_kbytes = 1200


vm.lowmem_reserve_ratio = 256   32


vm.swappiness = 99


vm.nr_pdflush_threads = 2


vm.dirty_expire_centisecs = 3000


vm.dirty_writeback_centisecs = 500


vm.dirty_ratio = 40


vm.dirty_background_ratio = 10


vm.page-cluster = 3


vm.overcommit_ratio = 99


vm.overcommit_memory = 2

Quelques infos supplémentaires sur le matériel :



Processor       : ARM926EJ-Sid(wb) rev 0 (v5l)


BogoMIPS        : 219.54


Features        : swp half thumb fastmult 


CPU implementer : 0x41


CPU architecture: 5TEJ


CPU variant     : 0x0


CPU part        : 0x926


CPU revision    : 0


Cache type      : write-back


Cache clean     : cp15 c7 ops


Cache lockdown  : format C


Cache format    : Harvard


I size          : 16384


I assoc         : 1


I line length   : 32


I sets          : 512


D size          : 16384


D assoc         : 1


D line length   : 32


D sets          : 512





Hardware        : Feroceon


Revision        : 0000


Serial          : 0000000000000000



MemTotal:        13588 kB


MemFree:          1552 kB


Buffers:           220 kB


Cached:           6392 kB


SwapCached:        672 kB


Active:           3480 kB


Inactive:         3860 kB


HighTotal:           0 kB


HighFree:            0 kB


LowTotal:        13588 kB


LowFree:          1552 kB


SwapTotal:      128448 kB


SwapFree:       125392 kB


Dirty:            1492 kB


Writeback:           0 kB


Mapped:           2864 kB


Slab:             2420 kB


CommitLimit:    141900 kB


Committed_AS:     9260 kB


PageTables:        296 kB


VmallocTotal:   499712 kB


VmallocUsed:       328 kB


VmallocChunk:   499384 kB

et le dmesg :



Linux version 2.6.12.6-arm1 (iminea@grp-horus) (gcc version 3.4.4 (release) (CodeSourcery ARM 2005q3-2)) #49 Wed Apr 9 15:29:15 CEST 2008


CPU: ARM926EJ-Sid(wb) [41069260] revision 0 (ARMv5TEJ)


CPU0: D VIVT write-back cache


CPU0: I cache: 16384 bytes, associativity 1, 32 byte lines, 512 sets


CPU0: D cache: 16384 bytes, associativity 1, 32 byte lines, 512 sets


Machine: Feroceon


Using UBoot passing parameters structure


Memory policy: ECC disabled, Data cache writeback


On node 0 totalpages: 4096


  DMA zone: 4096 pages, LIFO batch:1


  Normal zone: 0 pages, LIFO batch:1


  HighMem zone: 0 pages, LIFO batch:1


Built 1 zonelists


Kernel command line: console=ttyS0,115200 root=/dev/sda7 ro boardType=mv88F6082 productType=Aston reset=0


mvBoardGpioIntMaskGet:Board intsGppMask 0


PID hash table entries: 128 (order: 7, 2048 bytes)


Console: colour dummy device 80x30


Dentry cache hash table entries: 4096 (order: 2, 16384 bytes)


Inode-cache hash table entries: 2048 (order: 1, 8192 bytes)


Memory: 8MB 8MB 0MB 0MB = 16MB total


Memory: 13480KB available (2233K code, 360K data, 84K init)


Calibrating delay loop... 219.54 BogoMIPS (lpj=1097728)


Mount-cache hash table entries: 512


CPU: Testing write buffer coherency: ok


NET: Registered protocol family 16


mvBoardMppGet mppGroupNum 0 mppGroup 4096


mvBoardMppGet mppGroupNum 1 mppGroup 17


Sys Clk = 166666667, Tclk = 133333333





CPU Interface


-------------


SDRAM_CS0 ....base 00000000, size   8MB 


SDRAM_CS1 ....base 00800000, size   8MB 


PEX0_MEM ....base e0000000, size 128MB 


PEX0_IO ....base f2000000, size   1MB 


INTER_REGS ....base f1000000, size   1MB 


NFLASH_CS ....base f9000000, size   2MB 


MFLASH_CS ....base f8000000, size 256KB 


SPI_CS ....base fa000000, size   8MB 


BOOT_ROM_CS ....base fc000000, size   1MB 


DEV_BOOTCS ....base fc000000, size   1MB 


CRYPT_ENG ....base f0000000, size  64KB 





  Marvell Development Board (LSP Version 2.2.2_NAS_GDP)-- RD-88F6082-NAS-PH  Soc: MV88F6082 Rev 1


Detected Tclk 133333333 and SysClk 166666667 


Marvell USB EHCI Host controller #0: c030cb00


PCI: bus0: Fast back to back transfers enabled


SCSI subsystem initialized


usbcore: registered new driver usbfs


usbcore: registered new driver hub


Fast Floating Point Emulator V0.9 (c) Peter Teichmann.


inotify device minor=63


Registering unionfs 1.1.5


Serial: 8250/16550 driver $Revision: 1.90 $ 4 ports, IRQ sharing disabled


ttyS0 at MMIO 0x0 (irq = 3) is a 16550A


io scheduler noop registered


Marvell Ethernet Driver 'mv_ethernet':


  o Uncached descriptors in DRAM


  o DRAM SW cache-coherency


  o TCP segmentation offload enabled


  o Checksum offload enabled


  o Rx desc: 64


  o Tx desc: 128


  o Loading network interface   o ethPortNumber 2 'egiga0' mvBoardPhyAddrGet: 8 


mvBoardSpeedGet: 3 


  o ethPortNumber 2 'egiga1' mvBoardPhyAddrGet: 104 


mvBoardSpeedGet: 5 





ipddp.c:v0.01 8/28/97 Bradford W. Johnson <johns393@maroon.tc.umn.edu>


ipddp0: Appletalk-IP Encap. mode by Bradford W. Johnson <johns393@maroon.tc.umn.edu>


Intergrated Sata device found


scsi0 : Marvell SCSI to SATA adapter


  Vendor: SAMSUNG   Model: HD103UI           Rev: 1AA0


  Type:   Direct-Access                      ANSI SCSI revision: 03


Attached scsi disk sda at scsi0, channel 0, <5>SCSI device sda: 1953525168 512-byte hdwr sectors (1000205 MB)


SCSI device sda: drive cache: write back


SCSI device sda: 1953525168 512-byte hdwr sectors (1000205 MB)


SCSI device sda: drive cache: write back


 sda: sda1 < sda5 sda6 sda7 sda8 sda9 sda10 > sda2


Attached scsi disk sda at scsi0, channel 0, id 0, lun 0


Attached scsi generic sg0 at scsi0, channel 0, id 0, lun 0,  type 0


ehci_platform ehci_platform.70059: EHCI Host Controller


ehci_platform ehci_platform.70059: new USB bus registered, assigned bus number 1


ehci_platform ehci_platform.70059: irq 17, io mem 0x00000000


ehci_platform ehci_platform.70059: park 0


ehci_platform ehci_platform.70059: USB 0.0 initialized, EHCI 1.00, driver 10 Dec 2004


hub 1-0:1.0: USB hub found


hub 1-0:1.0: 1 port detected


ohci_hcd: 2004 Nov 08 USB 1.1 'Open' Host Controller (OHCI) Driver (PCI)


USB Universal Host Controller Interface driver v2.2


Initializing USB Mass Storage driver...


usbcore: registered new driver usb-storage


USB Mass Storage support registered.


usbcore: registered new driver usbhid


drivers/usb/input/hid-core.c: v2.01:USB HID core driver


mice: PS/2 mouse device common for all mice


DATA IN REG=2CE1


aston_power 1.0 initialised


i2c /dev entries driver


i2c-twsi - probe 


i2c-twsi - get parent 


i2c-twsi - set adapter 


rs5c372_attach  


rs5c372 detect  


rs5c372 attach client  


NET: Registered protocol family 2


IP: routing cache hash table of 512 buckets, 4Kbytes


TCP established hash table entries: 1024 (order: 1, 8192 bytes)


TCP bind hash table entries: 1024 (order: 0, 4096 bytes)


TCP: Hash tables configured (established 1024 bind 1024)


NET: Registered protocol family 1


NET: Registered protocol family 17


NET: Registered protocol family 5


Loading I2C based RTC driver device interface.


Found TWSI adapter with id: 0


Found I2C RTC rs5c372 @ 0x32


kjournald starting.  Commit interval 5 seconds


EXT3-fs: mounted filesystem with ordered data mode.


VFS: Mounted root (ext3 filesystem) readonly.


Freeing init memory: 84K


kjournald starting.  Commit interval 5 seconds


EXT3-fs: mounted filesystem with ordered data mode.


kjournald starting.  Commit interval 5 seconds


EXT3 FS on sda9, internal journal


EXT3-fs: mounted filesystem with ordered data mode.


SGI XFS with large block numbers, no debug enabled


fuse init (API version 7.8)


fuse distribution version: 2.7.3


Adding 128448k swap on /dev/sda5.  Priority:-1 extents:1


XFS mounting filesystem sda2


mvBoardPhyAddrGet: 8 


mvBoardPhyAddrGet: 8 


mvBoardPhyAddrGet: 8 


mvBoardPhyAddrGet: 8 


mvBoardPhyAddrGet: 8 


egiga0: link down


mvBoardPhyAddrGet: 8 


mvBoardPhyAddrGet: 8 


mvBoardPhyAddrGet: 8 


mvBoardPhyAddrGet: 8 


mvBoardPhyAddrGet: 8 


mvBoardPhyAddrGet: 8 


mvBoardPhyAddrGet: 8 


egiga0: link up, full duplex, speed 100 Mbps

Pour finir, le message d'erreur quand OOM killer se déclenche :



user.warn kernel: oom-killer: gfp_mask=0x2d0


user.warn kernel: DMA per-cpu:


user.warn kernel: cpu 0 hot: low 2, high 6, batch 1


user.warn kernel: cpu 0 cold: low 0, high 2, batch 1


user.warn kernel: Normal per-cpu: empty


user.warn kernel: HighMem per-cpu: empty


user.warn kernel: 


user.warn kernel: Free pages:        6524kB (0kB HighMem)


user.warn kernel: Active:20 inactive:23 dirty:0 writeback:0 unstable:0 free:1631 slab:874 mapped:20 pagetables:90


user.warn kernel: DMA free:6524kB min:1200kB low:1500kB high:1800kB active:80kB inactive:92kB present:16384kB pages_scanned:41 all_unreclaimable? no


user.warn kernel: lowmem_reserve[]: 0 0 0


user.warn kernel: Normal free:0kB min:0kB low:0kB high:0kB active:0kB inactive:0kB present:0kB pages_scanned:0 all_unreclaimable? no


user.warn kernel: lowmem_reserve[]: 0 0 0


user.warn kernel: HighMem free:0kB min:128kB low:160kB high:192kB active:0kB inactive:0kB present:0kB pages_scanned:0 all_unreclaimable? no


user.warn kernel: lowmem_reserve[]: 0 0 0


user.warn kernel: DMA: 411*4kB 252*8kB 113*16kB 27*32kB 1*64kB 1*128kB 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 6524kB


user.warn kernel: Normal: empty


user.warn kernel: HighMem: empty


user.warn kernel: Swap cache: add 24282, delete 24269, find 7705/11790, race 0+0


user.warn kernel: Free swap  = 124768kB


user.warn kernel: Total swap = 128448kB


user.err kernel: Out of Memory: Killed process 453 (smbd).


user.warn kernel: oom-killer: gfp_mask=0x2d0


user.warn kernel: DMA per-cpu:


user.warn kernel: cpu 0 hot: low 2, high 6, batch 1


user.warn kernel: cpu 0 cold: low 0, high 2, batch 1


user.warn kernel: Normal per-cpu: empty


user.warn kernel: HighMem per-cpu: empty


user.warn kernel: 


user.warn kernel: Free pages:        6620kB (0kB HighMem)


user.warn kernel: Active:0 inactive:35 dirty:0 writeback:1 unstable:0 free:1655 slab:874 mapped:0 pagetables:81


user.warn kernel: DMA free:6620kB min:1200kB low:1500kB high:1800kB active:0kB inactive:140kB present:16384kB pages_scanned:86 all_unreclaimable? no


user.warn kernel: lowmem_reserve[]: 0 0 0


user.warn kernel: Normal free:0kB min:0kB low:0kB high:0kB active:0kB inactive:0kB present:0kB pages_scanned:0 all_unreclaimable? no


user.warn kernel: lowmem_reserve[]: 0 0 0


user.warn kernel: HighMem free:0kB min:128kB low:160kB high:192kB active:0kB inactive:0kB present:0kB pages_scanned:0 all_unreclaimable? no


user.warn kernel: lowmem_reserve[]: 0 0 0


user.warn kernel: DMA: 397*4kB 261*8kB 118*16kB 27*32kB 1*64kB 1*128kB 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 6620kB


user.warn kernel: Normal: empty


user.warn kernel: HighMem: empty


user.warn kernel: Swap cache: add 24307, delete 24291, find 7705/11794, race 0+0


user.warn kernel: Free swap  = 125024kB


user.warn kernel: Total swap = 128448kB


user.err kernel: Out of Memory: Killed process 1007 (smbd).

Qu'est ce qui est susceptible de limiter le swap, et comment puis-je empêcher le déclenchement d'OOM killer tant que toute la mémoire n'est pas réellement saturée ?

Je sais qu'il existe un firmware alternatif pour ce NAS, mais il nécessite un reformatage complet, ce que j'aimerais éviter.

Merci de m'avoir lu jusqu'au bout :-)

# SWAP != RAM

Posté par zecrazytux le 19 février 2011 à 18:59. Évalué à 2.

Le swap n'est pas utilisé de la même façon que la RAM, et le kernel veut parfois allouer de la RAM, pas de la swap. Si yaplu, yaplu...

http://linux-mm.org/OOM

As tu installé des services supplémentaires ?
- [^] # Re: SWAP != RAM
  
  Posté par zecrazytux le 19 février 2011 à 19:00. Évalué à 2.
  
  Quelle est la conso en ram des services que tu fais tourner ?
  RSS ou RES
  - [^] # Re: SWAP != RAM
    
    Posté par yodaz le 19 février 2011 à 19:14. Évalué à 1.
    
    Je n'ai pas plus d'infos, le ps est un ps "busybox", et il ne m'affiche pas ces colonnes :-\
- [^] # Re: SWAP != RAM
  
  Posté par yodaz le 19 février 2011 à 19:10. Évalué à 1.
  
  A part ce qui est affiché par la sortie de la commande ps, je n'ai rien installé d'autre. Par contre j'ai remarqué que le OOM se déclenchait souvent quand je lançais le démon ushare configuré pour lire des données sur un répertoire monté depuis le NAS, mais le démon ushare tourne sur une autre machine.
# fragmentation

Posté par Krunch (courriel, site web personnel) le 20 février 2011 à 20:17. Évalué à 2.
J'y connais rien en ARM mais ceci :
```
user.warn kernel: DMA free:6524kB min:1200kB low:1500kB high:1800kB active:80kB inactive:92kB present:16384kB pages_scanned:41 all_unreclaimable? no
```
signifie qu'il y a 6524kB de mémoire disponible et que l'OOM ne devrait pas se déclencher tant que ça ne passe pas en dessous de 1200kB. Sauf que :
```
user.warn kernel: DMA: 411*4kB 252*8kB 113*16kB 27*32kB 1*64kB 1*128kB 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 6524kB
```
signifique que la plus grande zone de mémoire consécutive disponible est de 128kB. Si quelque chose tente d'allouer 256kB consécutifs par exemple, ça peut causer un OOM. Tu n'as rien d'autre dans les logs noyau immédiatement avant l'OOM ? Ça se passe lors du chargement d'un module par exemple ?

pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.
- [^] # Re: fragmentation
  
  Posté par Krunch (courriel, site web personnel) le 20 février 2011 à 20:46. Évalué à 3.
  
  L'idéal ça serait d'avoir un backtrace pour voir par quoi out_of_memory() a été appelé. On peut faire ça en activant le sysctl "panic_on_oom" et en ayant de quoi récupérer les logs console et possiblement un vmcore.
  
  pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.
  - [^] # Re: fragmentation
    
    Posté par yodaz le 20 février 2011 à 23:12. Évalué à 0.
    
    Merci, je vais tester ça dès que je peux et je poste les logs
    - [^] # Re: fragmentation
      
      Posté par yodaz le 20 février 2011 à 23:16. Évalué à 1.
      Je viens de regarder vite fait, apparemment le "panic on oom" n'est pas supporté par mon noyau :
      
      sysctl -a |grep oom
      
      ne me renvoie rien.
      
      Par contre j'ai pas mal de lignes de ce style avant le déclenchement du OOM :
      
      user.err kernel: XFS: possible memory allocation deadlock in kmem_alloc (mode:0x2d0)
      
      Peut-être un bug du module XFS ? Je vais tenter un xfs_repair à tout hasard.
      - [^] # Re: fragmentation
        
        Posté par Krunch (courriel, site web personnel) le 21 février 2011 à 01:31. Évalué à 3.
        
        Les GFP flags de l'OOM correspondent à ceux du message XFS (0x2d0 == NOWARN | FS | IO | WAIT). Le message vient de là : http://lxr.linux.no/#linux+v2.6.12/fs/xfs/linux-2.6/kmem.c#L62
        
        43#define MAX_VMALLOCS 6 44#define MAX_SLAB_SIZE 0x20000 .. 47void * 48kmem_alloc(size_t size, int flags) 49{ 50 int retries = 0; 51 int lflags = kmem_flags_convert(flags); 52 void *ptr; 53 54 do { 55 if (size < MAX_SLAB_SIZE || retries > MAX_VMALLOCS) 56 ptr = kmalloc(size, lflags); 57 else 58 ptr = __vmalloc(size, lflags, PAGE_KERNEL); 59 if (ptr || (flags & (KM_MAYFAIL|KM_NOSLEEP))) 60 return ptr; 61 if (!(++retries % 100)) 62 printk(KERN_ERR "XFS: possible memory allocation " 63 "deadlock in %s (mode:0x%x)\n", 64 __FUNCTION__, lflags); 65 blk_congestion_wait(WRITE, HZ/50); 66 } while (1); 67}
        
        Faut croire que XFS essaie d'allouer un relativement gros bloque de mémoire contigüe. Ça marche pas donc ça déclenche un OOM. XFS réessai jusqu'à ce que les OOM aient défragmenté suffisamment de mémoire où jusqu'à ce qu'il abandonne et utilise de la mémoire non contigüe.
        
        M'étonnerait qu'un xfs_repair change grand chose. Il y a peut-être moyen de tuner XFS pour éviter ce genre de situation mais vu l'ancienneté du noyal, il est probable qu'il s'agisse d'un bug XFS qui requiert une mise à jour du driver.
        
        pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.
        
        [^] # Re: fragmentation
        
        Posté par yodaz le 21 février 2011 à 06:42. Évalué à 1.
        
        Merci beaucoup pour ce diagnostic précis. Effectivement le xfs_repair n'a rien changé :-\ Je vais potasser la doc xfs pour voir si je peux m'en sortir en jouant avec les fs.xfs.* et sysctl Si jamais ça ne marche pas, il ne me restera plus qu'à espérer qu'il existe de quoi recompiler le module xfs avec une version plus récente pour l'archi de mon NAS.
        
        En tout cas, merci pour ton aide et bonne journée.
        
        [^] # Re: fragmentation
        
        Posté par Krunch (courriel, site web personnel) le 01 mars 2011 à 05:02. Évalué à 2.
        
        Bl0rgué avec un peu plus de détails : http://bl0rg.krunch.be/oom-frag.html
        
        pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.