Forum général.cherche-logiciel Numériser en PDF comme en DjVu

Posté par  (site web personnel) . Licence CC By‑SA.
Étiquettes : aucune
8
13
juil.
2021

Bonjour,

Rappel sur le format DjVu

Vous connaissez peut-être le format DjVu, conçu pour stocker des documents numérisés. À la lecture, c'est un peu semblable à du PDF, ça s'ouvre dans un lecteur comme Evince ou Okular, et ça se lit pareil.

En revanche, c'est, ou du moins, c'était beaucoup plus efficace que PDF en terme de stockage. En effet, DjVu permet de stocker un document sous forme d'une pile de trois images :

  • un arrière-plan et un avant-plan, en couleur, potentiellement en assez basse rĂ©solution, codĂ©s avec une compression par ondelettes ;
  • un masque, concrètement l'image du texte du document, bitonal, en haute rĂ©solution, codĂ© en JBIG2.

Avec ça, vous pouvez numériser une page en très haute résolution, et utiliser didjvu pour la stocker dans un document DjVu de moins de 100 kio. Et, comme avec PDF, vous pouvez ajouter une couche d'OCR, invisible, mais qui contient du texte sélectionnable, pour pouvoir faire des recherches et des copier-coller.

Le problème

Mais bref, venons-en à l'argument de ce message. Le problème du format DjVu, c'est que si efficace soit-il, ne s'est pas franchement imposé. Oh, ça se lit sans problème avec les lecteurs PDF libres, qui le prennent aussi en charge, mais les utilisateurs de logiciels propriétaires n'y arriveront pas. Je sais qu'ils sont capables d'installer un logiciel pour lire le PDF, mais allez savoir pourquoi, installer un logiciel pour lire du DjVu, c'est généralement au-dessus de leur force.

Une recherche de solution

Depuis l'invention du format DjVu, de l'eau a coulé sous les ponts, et le format PDF a pas mal évolué. En particulier, on peut maintenant y stocker des images bitonales en JBIG2 et des images couleur en JPEG-2000. Vu la richesse du format, je m'attends à ce qu'il soit techniquement tout à fait possible de superposer dans un document PDF :

  • un arrière-plan en JPEG-2000 ;
  • un masque, concrètement, l'image du texte du document, en JBIG, les zones blanches Ă©tant affichĂ©es comme transparentes et laissant voir l'arrière-plan ;
  • un avant-plan en JPEG-2000, avec un masque de transparence en JPEG-2000 aussi, ou en JBIG2, ou en un Ă©quivalent de PNG…

Bref, et c'est là que je veux en venir, j'ai bien l'impression que le format PDF permet aujourd'hui de stocker un document numérisé de façon aussi efficace que DjVu. D'où mon interrogation, connaissez-vous un logiciel libre qui permette d'exploiter cette possibilité :
* soit en convertissant un document DjVu en PDF de façon efficace, c'est à dire sans aplatir les trois couches, mais en les conservant et en les stockant avec une compression appropriée ;
* soit en séparant une image sortie d'un scanner en couches, pour les stocker dans un document PDF avec une compression appropriée ?

  • # IntĂ©rĂŞt

    Posté par  (site web personnel) . Évalué à 7.

    Pour info, l'intérêt que je porte à DjVu vient de ce que je n'aime pas me séparer des documents originaux que je reçois sous forme papier. Or, certains interlocuteurs accordent une certaine importance à ce qu'on leur transmette des originaux.

    J'ai donc pris pour habitude de numériser mes documents en très haute résolution – 1200 dpi, ce qui va au-delà des besoins du théorème d'échantillonage pour un document qui sort probablement d'une impression en 300 dpi. Lorsqu'on me demande ce document, je l'imprime simplement, et c'est cette copie que je fournis.

    Jamais je ne prétends fournir l'original, ce serait mentir, simplement je ne le précise pas. À moins que mon interlocuteur n'ait assez de temps à perdre pour chercher si par hasard, ce ne serait pas une copie, ça passe.

    Seulement, pour stocker, et surtout pour transmettre des documents numérisés avec une telle résolution, mieux vaut avoir un format de compression efficace !

  • # Je ne sais pas vraiment t'aider, mais j'ai appris des choses

    Posté par  . Évalué à 2.

    Tout est dans le titre ;-) Donc merci pour ces très bonnes explications.

    Pour néanmoins trouver une piste de solution :
    - Chercher dans les bugtrackers et mailing lists de différents logiciels libres relatifs au scannage de documents (sane et simple-scan me viennent à l'esprit) ou alors les logiciels qui travaillent directement avec le format PDF (donc s'adresser aux développeurs upstream qui connaissent et ont touché à la spec PDF). Si aucune info trouvée, rapporter un bug / demande de fonctionnalité en espérant avoir une réponse (même si la réponse ne vient que 5 ans plus tard, avec la fonctionnalité implémentée dans un autre logiciel 5 ans encore après, c'est mieux que rien (expérience typique)).
    - Avec peut-être une chance de trouver un bout de script quelque part bien caché au fin fond du web^W^W de GitHub ;-)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.