Journal : Numérisation des documents administratifs avec métadonnées
Posté par Nelis (page perso, ) le 07 avril 2008
0
Salut,Etant donné que je suis un bordélique irrécupérable mais que j'aimerais quand même ne pas perdre certains documents importants (fiches de salaires, contrats, factures, ...), je suis en train de réfléchir de la meilleure manière de numériser tout ça.
Au boulot, on a une imprimante/photocopieuse qui peut scanner des documents directement en PDF, c'est déjà un bon début.
Maintenant je me pose plusieurs questions :
- Les PDFs générés sont dans une vieille version du format, ne vaut-il pas mieux numériser en TIFF et convertir en PDF après (Y'a-t-il des logiciels libres de préférence qui peuvent faire ça ?)
- Le scanner ne fait pas d'OCR, ça serait pourtant pas mal de pouvoir faire des recherches dans les PDF, connaissez-vous un moyen d'appliquer un OCR sur un PDF existant ?
- Au niveau de la résolution, je le fais en 300DPI greyscale, je pense que c'est suffisant.
- J'aimerais embarquer des métadonnées dans le PDF (organisme source du document, type de document, date du document, ...), quel est le meilleur moyen de faire ça sans que les métadonnées ne se perdent dès que le document est déplacé ? J'ai entendu parler de XMP mais je ne sais pas si c'est fait pour ça.
- Pour le stockage de ces infos : disque local avec backup ? Remote FS style Amazon S3 ?
Bref, est-ce que l'un de vous a déjà tenté l'expérience, et si oui, peut-il indiquer quelle solution il a retenu, quels sont les pièges, ...
Je ne pense pas être le seul à rechercher ce type de solution donc toute info est la bienvenue :-)
> Lire le journal (20 commentaires, moyenne: 2,5).
Vous avez demandé le commentaire #920559.


OCR , tessaract etc...
Pour l'OCR je te renvoye à l'article sur Tessaract couplé à Gscan2PDF
http://ubunteros.tuxfamily.org/spip.php?article148
[+] [^]Re: OCR , tessaract etc...
Sinon un coup de pdftotext devrait suffire(par contre je suis pas certain que les accents soient bien gérés).