Forum Programmation.autre Pré-réserver de l'espace sur le disque dur

Posté par leoboy le 27 novembre 2009 à 16:29.

Étiquettes : aucune

nov.

2009

Bonjour à tous,

Je travaille actuellement sur un projet qui écrit beaucoup de données directement sur le disque dur, dans des fichiers d'environ 30 Ko. Or, initialement, les fichiers ne font que 10 Ko, voire moins, et c'est au fur et à mesure du temps qu'ils atteignent la taille de 30 Ko.
Un benchmarking portant sur la vitesse de lecture, écriture et accès nous a fait choisir ReiserFS comme système de fichiers.

Afin d'accélérer la lecture de ces fichiers, je souhaiterais dire au filesystem de pré-réserver 30 Ko pour chaque fichier, au moment de leur création. Ceci afin d'éviter la fragmentation et d'accélérer la lecture des données.

J'ai lu pas mal de doc sur les extents et autres et je pense être sur la bonne voie. Cependant, je ne vois pas comment dire au filesystem de me pré-réserver de l'espace. Tout d'abord, est-ce possible ? Que dois-je appeler comme fonction ?

Le développement est fait en Perl, cependant si je trouve une solution en C, je serai preneur. Il y a des bindings et j'ai le droit de faire du "sale".

Merci d'avance pour vos lumières.

# Idée simpliste

Posté par ✅ ffx le 27 novembre 2009 à 17:15. Évalué à 4.

Ajouter du padding (des \zéros par exemple) à la fin de ton fichier pour qu'il prenne dès le début sa taille maximale...
- [^] # Re: Idée simpliste
  
  Posté par GeneralZod le 27 novembre 2009 à 17:52. Évalué à 2.
  
  C'est effectivement la bonne méthode, mais Posix offre déjà un jeu de fonctions pour définir/ajuster la taille d'un fichier ==> truncate/ftruncate
  - [^] # Re: Idée simpliste
    
    Posté par leoboy le 27 novembre 2009 à 19:15. Évalué à 1.
    
    Effectivement, c'est déja mieux. Je ne connaissais pas ces fonctions.
    
    Existe-t-il des fonctions du même ordre permettant de s'assurer que les blocs sur le disque sont consécutifs (pas de fragmentation) ?
    - [^] # Re: Idée simpliste
      
      Posté par GeneralZod le 27 novembre 2009 à 19:51. Évalué à 3.
      
      éventuellement posix_fallocate ou fallocate qui mappent l'appel système fallocate. Le premier n'est pas supporté par tout les systèmes de fichiers (dans ce cas, il se contente d'écrire des zéros ce qui est nettement moins performant), le second est un appel linux-only mais n'a pas les mêmes problèmes que son homologue posix.
      Dans ce cas, pas besoin de ftruncate, mais il vaut mieux prévoir large dés le départ et ensuite redimensionner son fichier.
      
      Le commentaire d'eMerzh me semble pertinent pour ce problème
      http://linuxfr.org/comments/1085943.html#1085943
      - [^] # ext4 et xfs et btrfs
        
        Posté par solsTiCe (site web personnel) le 28 novembre 2009 à 19:57. Évalué à 4.
        
        l'appel système fallocate est reconnu par les fs ci-dessus mentionnés : ext4, xfs, btrfs. (ou il l'implémente tout simplement ?) Donc ils allouent des extents pour la taille du fichier demandé. pas besoin de remplir de zéro.
# Comment font..

Posté par Grunt le 27 novembre 2009 à 17:24. Évalué à 3.

Les clients de P2P, qui créent des fichiers "vide" de la bonne taille dès le début?

Par exemple, avec aMule, quand tu télécharges "Internet libre ou Minitel 2.0.avi", de taille 99Mo, il crée un fichier vide "xxx.part" de 99 Mo dès l'instant où il connait la taille, et il remplit ensuite. Ceci afin de réserver l'espace disque.
T'as plus qu'à tipiaker leur recette ;+)
THIS IS JUST A PLACEHOLDER. YOU SHOULD NEVER SEE THIS STRING.
- [^] # Re: Comment font..
  
  Posté par leoboy le 27 novembre 2009 à 19:07. Évalué à 0.
  
  A priori ils écrivent un gros fichier tout plein de zéros. Aucune chance que ce soient des secteurs continus sur le disque dur.
  
  Moi je veux bien utiliser un FS qui aie des fonctions spécifiques pour pré-réserver de l'espace continu, pas de souci. La question, c'est comment le faire...
  
  Léo.
  - [^] # Re: Comment font..
    
    Posté par yellowiscool le 27 novembre 2009 à 21:39. Évalué à 2.
    
    Non, il n'y a pas de 0. La taille du fichier et l'occupation sur le disque ne sont pas identiques. J'ai un vague souvenir de le voir, mais je ne sais plus comment.
    Envoyé depuis mon lapin.
    - [^] # Re: Comment font..
      
      Posté par Bruno Muller le 28 novembre 2009 à 11:43. Évalué à 1.
      
      $ dd if=/dev/zero of=plop bs=1 count=1 seek=1048575 $ stat -c '%b*%Bo alloués sur disque (vs taille %so)' plop 8*512o alloués sur disque (vs taille 1048576o) $
      ou
      $ mkdir plop $ cd plop/ $ dd if=/dev/zero of=plop bs=1 count=1 seek=1048575 $ du . 8,0K . $ ls -al . total 16K drwxr-xr-x 2 bruno bruno 4,0K nov. 28 10:35 . drwxr-xr-x 111 bruno bruno 4,0K nov. 28 10:35 .. -rw-r--r-- 1 bruno bruno 1M nov. 28 10:35 plop
# la ram

Posté par lem__mel le 27 novembre 2009 à 17:42. Évalué à 3.

connais pas le contexte, mais si c'est réellement de la vitesse que tu cherche, tu peux également essayer d'avoir tes fichiers en RAM via un ramdisk.
- [^] # Re: la ram
  
  Posté par leoboy le 27 novembre 2009 à 19:04. Évalué à 1.
  
  Bah oui, mais j'en ai pour 40 Go de fichiers. Et ca pourrait monter à 400. Pas possible de tout mettre en RAM, c'est trop cher.
  
  Condamné à mettre tout en disque ! Evidemment on fait ça sur du Raid1 pour lire plus vite, etc....
  
  Léo.
  - [^] # Re: la ram
    
    Posté par NeoX le 27 novembre 2009 à 23:58. Évalué à 1.
    
    40Go par tranche de fichier de 30Kio ?
    je ne sais pas ce que c'est cette appli, mais ca semble coder avec les pieds (enfin je dis ca, je suis pas codeur... et on est encore vendredi)
  - [^] # Re: la ram
    
    Posté par lem__mel le 28 novembre 2009 à 00:08. Évalué à 7.
    
    Mouaip, je connais pas les données du problème, mais ton affaire de fichiers pouvant aller à 30 Ko, pour occuper au total 40 Go c'est peu orthodoxe. Avec ces chiffres, cela te fait plus d'un million de fichier (et 10 million de fichier dans le cas ou tu as 400Go de fichier).
    
    Vous seriez pas en train de faire le boulot d'une base de données ? Si c'est le cas, cela me paraît être une mauvaise idée car même si de façon générale un modèle géré à la mano est plus rapide, dans le cas où on atteint des volumes pareils, il vaut mieux avoir des gens expérimentés au clavier. Alors qu'avec une BD bien réglé (choix judicieux des clefs, de leur taille, etc), il est difficilement de faire mieux, du moins pour le commun des mortels.
    
    Par curiosité, tu pourrais nous dire qui en a besoin et pour quel usage ? Aller, je fais le pari que c'est un travail universitaire !
    - [^] # Re: la ram
      
      Posté par leoboy le 28 novembre 2009 à 20:07. Évalué à 3.
      
      Pourquoi pas de base de données ?
      
      Déjà faudrait-t-il préciser de quel "type" de base de données a-t-on besoin. Objet, relationnel....
      
      -On a pas besoin du côté "relationnel" des bases de données que tout le monde connaît. Notre base est plutôt "arborescente".
      -On pourrait se baser sur une bdd arborescente type LDAP, mais semble-t-il qu'il supporte très mal les millions d'entrées... et LDAP est optimisé pour la lecture, nous faisons environ 5 fois plus d'écritures que de lectures.
      -MySQL commence à pêcher quand on arrive à 80-100M d'entrées dans une table, même avec des indexes bien 'pensés', surtout lorsque l'on ajoute/supprime fréquemment des entrées. Les DELETE ou INSERT prennent beaucoup, beaucoup de temps. Même avec une grosse machine. Et on n'a pas de sous pour acheter du Oracle.
      -On développe super bien, on est des kadors. Si, si, je te jure !
      -En fait... c'en est une, de base de données, mais sous forme de fichiers. Dans la 'définition', ça colle. Ca nous suffit, en fait. Nous sommes partisans du principe KISS (Keep It Simple & Stupid).
      
      Et ... non, ce n'est pas universitaire. Raté.
      - [^] # bsd DB
        
        Posté par solsTiCe (site web personnel) le 29 novembre 2009 à 13:12. Évalué à 1.
        
        et avec berkely db ? puisque y'a pas besoin du côté relationel.
        et pourquoi pas compressé les données dans la base avec un algo rapide comme lzo1.
        c'est ce que j'ai essayé pour trouver une autre bd pour pacman.
        
        pacman utilise pour l'instant des fichiers aussi. KISS ! ça marche bien et c'est rapide. sauf que c'est lent la 1ère fois qu'il faut parser tous les fichiers. mais bon, on s'y fait. c'est toujours plus rapide que d'autres gestionnaire de paquet ;-)
        
        [^] # Re: bsd DB
        
        Posté par Sytoka Modon (site web personnel) le 29 novembre 2009 à 14:52. Évalué à 3.
        
        Sinon, il y a les bases alternatives, CouchDB pour une vision plus neuve ou HDF5 pour une vision plus scientifique. Ce dernier mériterait d'être plus connu, mais encore une fois, tout dépend de la problématique.
        
        [^] # Re: bsd DB
        
        Posté par leoboy le 30 novembre 2009 à 12:35. Évalué à 2.
        
        Oui, on aurait pu, mais on a eu un peu peur de faire manger des gigas et des gigas à BDB.
        
        On pense à compresser les données "à la volée" dans le futur pour gagner un peu d'espace, je regarderai lzo1 que je ne connaissais pas (merci!).
        
        [^] # Re: bsd DB
        
        Posté par solsTiCe (site web personnel) le 30 novembre 2009 à 14:05. Évalué à 1.
        
        y'a une verison 2 aussi http://www.oberhumer.com/opensource/lzo/
        et d'autres compressions sur le site
        sinon y'a zlib tout simplement
# pas grand chose...

Posté par eMerzh (site web personnel) le 27 novembre 2009 à 19:19. Évalué à 5.

J'y connais pas grand chose mais... si tu augmente la taille des blocks de ton fs vers 30k? ... ça perd un peu de place si tu dois faire un fichier de 31k mais bon...
- [^] # Re: pas grand chose...
  
  Posté par leoboy le 28 novembre 2009 à 20:12. Évalué à 3.
  
  Effectivement, j'y avais pas pensé, et ça aurait été de la belle optimisation.
  
  Mais en fait, Ext3 et ReiserFS ne permettent respectivement que des tailles de 4096 et 8192 o au maximum (damned!). Et ce sont les deux seuls FS dont on a la maîtrise.
  
  Merci en tout cas pour ton commentaire.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.