Des formats ouverts et du FOSS pour la préservation du patrimoine européen

Posté par (page perso) . Édité par Benoît Sibaud et palm123. Modéré par tankey. Licence CC by-sa
23
27
avr.
2015
Technologie

Bonne nouvelle pour les amateurs de formats ouverts (dans le sens européen du terme) et de logiciel libre / open source, l’Union Européenne, par le biais du projet PREFORMA, lui-même possible par le biais du programme d’investissement de l’Union Européenne nommé FP7 / Septième programme cadre, a décidé d’investir dans la promotion des formats ouverts PDF, TIFF, Matroska et FFv1, dans un objectif de préservation du patrimoine européen. Pour cela le projet PREFORMA a été doté d’un budget total de 2,8 millions d’euros, comprenant un travail de standardisation des formats et le prototypage d’outils de test de conformité.

Logo PREFORMA Logo Union Européenne Logo Commission Européenne / FP7

PREFORMA s'intéresse à 3 domaines, avec un format sélectionné pour chaque domaine :

  • Documents : le classique PDF a été retenu, dans sa version pour archives : PDF/A. Il a été noté que la spécification n’est pas libre (derrière un péage et non redistribuable) mais aucun format libre n’est vraiment utilisé dans ce domaine.
  • Imagerie : TIFF a été retenu. Il a été noté que la spécification n’est pas libre (derrière un péage et non redistribuable) mais aucun format libre n’est vraiment utilisé dans ce domaine.
  • Audio-visuel : point de débat H.26x contre VPx, ici on s'intéresse à la préservation du patrimoine donc à de la compression sans perte. Le format FFv1 a été retenu, et il est accompagné de Matroska pour le conteneur. Pour la partie audio, on ne s'embête pas pour le moment et on reste sur du PCM. Les “spécifications” de Matroska et FFv1 (nous reviendrons sur le pourquoi des guillemets un peu plus loin) sont libres : pas de péage et redistribution possible.

Mais quel est donc le but de PREFORMA? PREFORMA souhaite motiver l’adoption de ces formats ouverts (dans le sens européen du terme, donc tolérant un coût nominal pour la disponibilité de la spécification) en aidant à la création d’outils libres / open source dédiés à la vérification de conformité. L’objectif est d’être sûr que les fichiers seront lisibles dans 1 000 ans (n’oublions pas que nous sommes dans le domaine de la préservation du patrimoine et donc de l’archivage, l’objectif est vraiment de cette grandeur). PREFORMA finance la phase de prototypage de ces outils ainsi que la standardisation des formats non encore standardisés.

Pour y arriver, PREFORMA a sélectionné en octobre 2014 six consortiums pour une phase de conception, et a en avril 2015 retenu un consortium par domaine :

  • Documents (PDF) : VeraPDF
  • Imagerie (TIFF) : Easy Innova
  • Audio-visuel (Matroska/FFV1/PCM) : MediaArea (NdM: l'auteur de la dépêche est le développeur principal de ce logiciel)

Les consortiums ont l’obligation de fournir leur résultat à PREFORMA sous double licence GPL v3+ / MPL v2+.

Les voila donc partis pour une phase de prototypage qui va les mener jusqu’à fin 2016.


Le rédacteur va s’attarder sur la partie audio-visuelle car c’est une partie qui l'intéresse plus que les autres, de manière totalement non objective, car il faut l’avouer maintenant : le rédacteur n’est pas complètement neutre dans cette histoire, vu qu’il fait partie des consortiums retenus.

Encore une victoire pour Matroska, qui après son choix par Google (mais de façon un peu modifiée : WebM n’est “que” basé sur Matroska) est de nouveau retenu comme format de prédilection pour des entités publiques. FFv1 est peu connu du grand public car il ne fait que de la compression sans perte, mais fait partie des formats vidéos de prédilection (avec JPEG 2000) pour l’archivage. Point de FLAC pour la partie audio, mais qui sait peut-être plus tard…

Un problème majeur avec Matroska et FFv1 est que ces formats sont restés isolés, sans se frotter aux organismes de standardisation, et ne sont pas considérés comme ayant des spécifications par nombre d’entités, ce qui est bloquant pour leur adoption.
Nous voila donc partis pour tenter d’avoir une RFC pour chaque format :

  • dans un premier temps dans la catégorie “Informational” pour les versions déjà diffusées au sein du logiciel FFmpeg (du fait de la diffusion de fichiers avec cette version de FFv1, on ne peut pas changer le format). Il s’agit des version 0 à 3.
  • pour un deuxième temps viser la catégorie “Standard” après remarques qui pourraient être faites par les membre de l’IETF et qui seraient intégrées dans une prochaine version 4 de FFv1. Matroska a une spécification sur leur site qui est assez complète et peut être utilisée, toutefois FFv1 ne dispose pas de spécification et seul le code source de FFmpeg permet de le décoder. Nous allons donc travailler sur une spécification de FFv1 plus indépendante du code source.

Pour ceux qui souhaitent en savoir davantage, vous pouvez visiter une page plus complète du projet MediaConch présentant l’équipe.
Et si vous êtes motivé pour participer à un projet libre / open source sur la préservation numérique audio-visuelle, vous remarquerez assez vite qu’il reste des places disponibles dans l’équipe, alors n’hésitez pas à vous manifester !

  • # ...

    Posté par . Évalué à 5.

    Est ce qu'il y a l'équivalent sur le moyen de stocker les fichiers.

    Avoir des formats ouverts pour les fichiers c'est bien, mais si ça finit sur une sdcard au format exfat au fond du placard c'est plus discutable.

    Y a t il des spécifications pour définir le stockage de tout ces fichiers ?

    • [^] # Re: ...

      Posté par (page perso) . Évalué à 3.

      Je ne connais pas trop ce domaine (la partie stockage), tout ce que je peux dire est qu'il nous est demandé d'être compatible avec les API fichiers de Linux, après ce n'est plus le cadre de ce projet.

      Ha si, je peux dire une autre chose : la volumétrie des fichiers sans perte est incompatible avec la taille des SD Cards ;-)

  • # Matroska bloqué ?

    Posté par (page perso) . Évalué à 1.

    Étant donné que le format de conteneur Matroska a été retenu pour les vidéos DivX Plus HD, je ne trouve pas qu’on puisse dire que ce format est bloqué dans son adoption ;-)
    Même mon lecteur de salon lit les certains MKV.

    • [^] # Re: Matroska bloqué ?

      Posté par (page perso) . Évalué à 7. Dernière modification le 28/04/15 à 14:42.

      Même mon lecteur de salon

      Ton lecteur de salon est-il prévu pour tenir 1000 ans?
      Il y a une sacré différence entre lire (peut-être) des fichiers dans les quelques prochaines années et une réflexion pour le long terme.

      (…) certains (…)

      Et puis, même si ça passe sur ton lecteur, peux-tu garantir que ça passera sur celui de ton voisin?

      Exactement le problème : ce côté aléatoire est inacceptable pour une institution de préservation et c'est la raison pour laquelle il leur faut des outils de test de conformité.
      Ce que tu acceptes toi comme pas dérangeant (ça ne passe pas, tu vas chercher une autre version qui passe ou te passer du film de vacances que tu as fait) ne l'est pas pour une réflexion à long terme (qui ne permet pas d'aller chercher une autre version si cette version n'est pas lue, il n'y aura pas d'autres versions).

      je ne trouve pas qu’on puisse dire que ce format est bloqué dans son adoption ;-)

      Il est bloqué pour une utilisation dans des entités publiques de préservation (entre autres). Ou disons que la non standardisation est soit un point négatif soit un point de blocage pour les "décideurs" dans les institutions.

      A titre d'exemple, ce n'est pas pour rien que Microsoft et la fondation Open Office sont aller batailler à standardiser leur format "Office" respectif : c'est un gage de pérennité, d'acceptation, le "décideur" ne se mouille alors pas et peut dire "voyez, j'ai pris du standard" alors que pour le moment il se dit "ouh la, c'est quoi ce truc, je préfère ne pas trop m'engager et vais prendre le format de chez Apple (par exemple), c'est un gros lui et on l'aime bien c'est du connu, et on ne me le reprochera si ça pose problème".

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.