Faire un don ! | | style | statistiques | contactez-nous | plan | lettre d'information

Journal : Numérisation des documents administratifs avec métadonnées

Posté par Nelis (page perso, ) le 07 avril 2008
Salut,

Etant donné que je suis un bordélique irrécupérable mais que j'aimerais quand même ne pas perdre certains documents importants (fiches de salaires, contrats, factures, ...), je suis en train de réfléchir de la meilleure manière de numériser tout ça.

Au boulot, on a une imprimante/photocopieuse qui peut scanner des documents directement en PDF, c'est déjà un bon début.

Maintenant je me pose plusieurs questions :

- Les PDFs générés sont dans une vieille version du format, ne vaut-il pas mieux numériser en TIFF et convertir en PDF après (Y'a-t-il des logiciels libres de préférence qui peuvent faire ça ?)
- Le scanner ne fait pas d'OCR, ça serait pourtant pas mal de pouvoir faire des recherches dans les PDF, connaissez-vous un moyen d'appliquer un OCR sur un PDF existant ?
- Au niveau de la résolution, je le fais en 300DPI greyscale, je pense que c'est suffisant.
- J'aimerais embarquer des métadonnées dans le PDF (organisme source du document, type de document, date du document, ...), quel est le meilleur moyen de faire ça sans que les métadonnées ne se perdent dès que le document est déplacé ? J'ai entendu parler de XMP mais je ne sais pas si c'est fait pour ça.
- Pour le stockage de ces infos : disque local avec backup ? Remote FS style Amazon S3 ?

Bref, est-ce que l'un de vous a déjà tenté l'expérience, et si oui, peut-il indiquer quelle solution il a retenu, quels sont les pièges, ...

Je ne pense pas être le seul à rechercher ce type de solution donc toute info est la bienvenue :-)

> Lire le journal (20 commentaires, moyenne: 2,5).  

Vous avez demandé le commentaire #921175.

TiFF et PDF

Posté par dawar (page perso, ) le 08/04/2008 à 12:02. (lien). Évalué à 5.

Numériser en TIFF pour passer le document en PDF ne présente aucun interet. Le format PDF utilise des images JPEG, tu vas donc avoir du JPEG dans un conteneur PDF.

Autant utiliser directement du JPEG, qui permet avec les EXIF de mettre plein d'annotations. En plus, il existe une multitude de logiciel pour gérer les JPEG, donc autant utiliser ce format.

Le PDF est un format vectoriel, il n'a d'interet que si l'on mets du vectoriel dedant, par exemple ton document scanné et passé à l'OCR. Sinon, c'est un peu comme imaginer améliorer la qualité de ses mp3 en les passant en WAV...

  • [^]Re: TiFF et PDF

    Posté par Frédéric COIFFIER () le 09/04/2008 à 14:27. (lien). Évalué à 2.

    Moi, j'aime bien le PDF car on peut y inclure plusieurs pages dans un seul fichier et surtout, pour l'impression, on imprime à l'échelle d'origine (avec le JPEG, je suis pas sur que ça marche par défaut avec n'importe quel soft dont la visionneuse Windows).