Journal : Numérisation des documents administratifs avec métadonnées
Posté par Nelis (page perso, ) le 07 avril 2008
Salut,
Etant donné que je suis un bordélique irrécupérable mais que j'aimerais quand même ne pas perdre certains documents importants (fiches de salaires, contrats, factures, ...), je suis en train de réfléchir de la meilleure manière de numériser tout ça.
Au boulot, on a une imprimante/photocopieuse qui peut scanner des documents directement en PDF, c'est déjà un bon début.
Maintenant je me pose plusieurs questions :
- Les PDFs générés sont dans une vieille version du format, ne vaut-il pas mieux numériser en TIFF et convertir en PDF après (Y'a-t-il des logiciels libres de préférence qui peuvent faire ça ?)
- Le scanner ne fait pas d'OCR, ça serait pourtant pas mal de pouvoir faire des recherches dans les PDF, connaissez-vous un moyen d'appliquer un OCR sur un PDF existant ?
- Au niveau de la résolution, je le fais en 300DPI greyscale, je pense que c'est suffisant.
- J'aimerais embarquer des métadonnées dans le PDF (organisme source du document, type de document, date du document, ...), quel est le meilleur moyen de faire ça sans que les métadonnées ne se perdent dès que le document est déplacé ? J'ai entendu parler de XMP mais je ne sais pas si c'est fait pour ça.
- Pour le stockage de ces infos : disque local avec backup ? Remote FS style Amazon S3 ?
Bref, est-ce que l'un de vous a déjà tenté l'expérience, et si oui, peut-il indiquer quelle solution il a retenu, quels sont les pièges, ...
Je ne pense pas être le seul à rechercher ce type de solution donc toute info est la bienvenue :-)
Etant donné que je suis un bordélique irrécupérable mais que j'aimerais quand même ne pas perdre certains documents importants (fiches de salaires, contrats, factures, ...), je suis en train de réfléchir de la meilleure manière de numériser tout ça.
Au boulot, on a une imprimante/photocopieuse qui peut scanner des documents directement en PDF, c'est déjà un bon début.
Maintenant je me pose plusieurs questions :
- Les PDFs générés sont dans une vieille version du format, ne vaut-il pas mieux numériser en TIFF et convertir en PDF après (Y'a-t-il des logiciels libres de préférence qui peuvent faire ça ?)
- Le scanner ne fait pas d'OCR, ça serait pourtant pas mal de pouvoir faire des recherches dans les PDF, connaissez-vous un moyen d'appliquer un OCR sur un PDF existant ?
- Au niveau de la résolution, je le fais en 300DPI greyscale, je pense que c'est suffisant.
- J'aimerais embarquer des métadonnées dans le PDF (organisme source du document, type de document, date du document, ...), quel est le meilleur moyen de faire ça sans que les métadonnées ne se perdent dès que le document est déplacé ? J'ai entendu parler de XMP mais je ne sais pas si c'est fait pour ça.
- Pour le stockage de ces infos : disque local avec backup ? Remote FS style Amazon S3 ?
Bref, est-ce que l'un de vous a déjà tenté l'expérience, et si oui, peut-il indiquer quelle solution il a retenu, quels sont les pièges, ...
Je ne pense pas être le seul à rechercher ce type de solution donc toute info est la bienvenue :-)
> Lire le journal (20 commentaires, moyenne: 2,5).
Vous avez demandé le commentaire #920730.



DjVu
Il faudra peut-être aller voir du côté du format DjVu :
DjVu (pronounced "déjà vu") is a digital document format with advanced compression technology and high performance value. DjVu allows for the distribution on the Internet and on DVD of very high resolution images of scanned documents, digital documents, and photographs. DjVu viewers are available for the web browser, the desktop, and PDA devices.
http://djvu.org/
http://en.wikipedia.org/wiki/DjVu
http://www.madore.org/~david/weblog/2007-11.html#d.2007-11-0(...)
[^]Re: DjVu
Allez, je m'y colle, je suis nul en anglais, mais je sais qu'il y en a beaucoup ici qui n'y comprennent rien du tout.
DJVu (prononcé déjà vu) est un format de document avec une technologie de compression avancée offrant de grande performance.
DjVu permet la diffusion par internet et en DVD d'images à très hautes résolutions de documents scannés, numériques et photographique.
Des visionneuses pour DjVu existe déjà pour le navigateur, le bureau et les PDA.
J'ai déjà testé, c'est vrai que le taux de compression pour un document texte est remarquable (peut-être moins intéressant pour les photos) et qui étrangement à du mal à être adopté et à se diffusé.
Pour le format est, sauf erreurs, libre et exempt de brevets (quoi que là, ça évolue tellement aussi et puis ça dépend de ce qu'on accepte comme brevets, tout les logiciels doivent en violer).
[^]Re: DjVu
Oui, je sais, il n'y a pas qu'en anglais que je suis nul…
:D
[^]Re: DjVu
Ce format a l'air assez bien foutu, et il y a une implémentation libre (DJVuLibre). Savez-vous si elle est fonctionnelle à 100%, car ils indiquent que les encodeurs sont 'simple' ou 'very simple'.
Et il y a apparemment moyen de mettre aussi des métadata dans les fichiers.
Vache qui rit, à moitié dans son lit
[^]Re: DjVu
En plus, pour la question de l'OCR, j'ai déjà récupéré un document DJVU qui était manifestement un texte scanné mais sur lequel il était possible de faire des recherches textuelles. Je ne sais pas comment ça fonctionnait, j'imagine qu'il y avait eu une phase d'OCR préalable et qu'il est possible d'inclure ces informations au sein même du fichier DJVU. En tout cas, c'était très impressionnant. À approfondir.
Mr Lapinot - Electrons prisonniers (blog)
[^]Re: DjVu
Oui c'est fonctionnel, c'est déjà utilisé par pas mal de projets dans le monde documentaire et scientifique. Il y a aussi des bibliothèques numériques qui s'en servent ; si j'ai bonne mémoire il y a quelques exemples à partir de http://www.DjVu.org et de http://www.greenstone.org (Greenstone est un logiciel de bibliothèque numérique).
La simplicité des encodeurs libres signifie surtout que le fichier est plus gros qu'avec l'encodeur propriétaire.
Ça peut t'intéresser, il existe un convertisseur pdf2DjVu
J'ai vu bien des choses dans ma petite vie, et je mesure amèrement l'impuissance à les dire. (JP Rosnay, Le 13ème apôtre) http://www.poesie.net/apotre2.htm
[^]Re: DjVu
un exemple que j'ai effectué:
http://cardinalderichelieu.free.fr/ (il faut un plugin ou le programme djvu installé)
lien direct
http://cardinalderichelieu.free.fr/djvu/table.djvu
en djvu, c'est un livre scanné, l'avantage et que tu as le choix de faire soit un document qui contient tout mais peu adapté pour le web, ou une page -> une image
la c'est en noir et blanc mais tu as le choix suivant ce que contient ton document, image etc... lis le man djvu c'est tres bien expliqué. en plus cela bosse tres bien avec bash pour scripter tous cela.
dommage que cela ne soit pas repandu.
[^]Re: DjVu
Et au niveau des métadata, as-tu expérimenté la chose ?
J'ai vu qu'il existait un DjvuXML mais il n'y a pas beaucoup d'info dessus ...
En gros, ce que j'aimerais c'est stocker certaines métadata pour pouvoir faire des query du genre : tous les documents du type "fiche de salaire" de l'année 2004.
Vache qui rit, à moitié dans son lit
[^]Re: DjVu
non, mais cela semble assez simple d'attachez des mots par pages, quand il y auras un OCR correcte libre je passerais tout a la moulinette pour avoir le texte en plus de l'image.
sur internet il y a pas mal d'exemple avec le DjvuXML.