Salut,
Etant donné que je suis un bordélique irrécupérable mais que j'aimerais quand même ne pas perdre certains documents importants (fiches de salaires, contrats, factures, ...), je suis en train de réfléchir de la meilleure manière de numériser tout ça.
Au boulot, on a une imprimante/photocopieuse qui peut scanner des documents directement en PDF, c'est déjà un bon début.
Maintenant je me pose plusieurs questions :
- Les PDFs générés sont dans une vieille version du format, ne vaut-il pas mieux numériser en TIFF et convertir en PDF après (Y'a-t-il des logiciels libres de préférence qui peuvent faire ça ?)
- Le scanner ne fait pas d'OCR, ça serait pourtant pas mal de pouvoir faire des recherches dans les PDF, connaissez-vous un moyen d'appliquer un OCR sur un PDF existant ?
- Au niveau de la résolution, je le fais en 300DPI greyscale, je pense que c'est suffisant.
- J'aimerais embarquer des métadonnées dans le PDF (organisme source du document, type de document, date du document, ...), quel est le meilleur moyen de faire ça sans que les métadonnées ne se perdent dès que le document est déplacé ? J'ai entendu parler de XMP mais je ne sais pas si c'est fait pour ça.
- Pour le stockage de ces infos : disque local avec backup ? Remote FS style Amazon S3 ?
Bref, est-ce que l'un de vous a déjà tenté l'expérience, et si oui, peut-il indiquer quelle solution il a retenu, quels sont les pièges, ...
Je ne pense pas être le seul à rechercher ce type de solution donc toute info est la bienvenue :-)
# Loi
Posté par patrick_g (site web personnel) . Évalué à 3.
[^] # Re: Loi
Posté par Nelis (site web personnel) . Évalué à 5.
Pour ce qui est des documents notariés (acte de propriété) ça ne pose pas de soucis non plus (ça équivaut à des photocopies).
Pour les papiers liés par exemple aux impôts ça effectivement je ne sais pas si une copie est acceptée, mais heureusement en Belgique ils nous les fournissent déjà en PDF :-)
# Question sur la langue française
Posté par Zenitram (site web personnel) . Évalué à -10.
Dans le français que j'ai appris, on m'a dit que :
- Un journal, dans son esprit, c'est celui qui écrit qui fourni l'information
- Un forum, dans son esprit, celui qui écrit a un besoin, et les autres répondent.
Je suis certain d'avoir cliqué sur "Journal", et je trouve un truc sans information, mais où quelqu'un demande, du coup j'ai un problème : j'aimerai savoir où est mon erreur dans mon français.
[^] # Re: Question sur la langue française
Posté par Nelis (site web personnel) . Évalué à 10.
- A ce que je sache, rien n'interdit dans la politique éditoriale de linuxfr de poser des questions dans les journaux.
- Si ça te plait pas tu lis pas.
- Y'en a marre des branleurs qui râle dès qu'un journal ne correspond pas exactement à l'idée qu'ils se font d'un journal.
- Si t'as que ça à foutre que d'aller lire des journaux qui ne t'intéressent pas pour râler, ta vie doit être passionnante.
[^] # Re: Question sur la langue française
Posté par Snarky . Évalué à 3.
[^] # Re: Question sur la langue française
Posté par Nelis (site web personnel) . Évalué à 5.
Mais souvent, rien qu'avec le titre ou au bout de deux lignes, on se rend compte si ça nous intéresse ou pas.
Ouvrir le journal, tout lire, et laisser un commentaire pour râler sur un truc qui ne nous intéresse pas, il faut être motivé !
# OCR , tessaract etc...
Posté par eastwind☯ . Évalué à 1.
http://ubunteros.tuxfamily.org/spip.php?article148
[^] # Re: OCR , tessaract etc...
Posté par Smarter . Évalué à -3.
# DjVu
Posté par Archibald (site web personnel) . Évalué à 8.
DjVu (pronounced "déjà vu") is a digital document format with advanced compression technology and high performance value. DjVu allows for the distribution on the Internet and on DVD of very high resolution images of scanned documents, digital documents, and photographs. DjVu viewers are available for the web browser, the desktop, and PDA devices.
http://djvu.org/
http://en.wikipedia.org/wiki/DjVu
http://www.madore.org/~david/weblog/2007-11.html#d.2007-11-0(...)
[^] # Re: DjVu
Posté par seginus . Évalué à 5.
DJVu (prononcé déjà vu) est un format de document avec une technologie de compression avancée offrant de grande performance.
DjVu permet la diffusion par internet et en DVD d'images à très hautes résolutions de documents scannés, numériques et photographique.
Des visionneuses pour DjVu existe déjà pour le navigateur, le bureau et les PDA.
J'ai déjà testé, c'est vrai que le taux de compression pour un document texte est remarquable (peut-être moins intéressant pour les photos) et qui étrangement à du mal à être adopté et à se diffusé.
Pour le format est, sauf erreurs, libre et exempt de brevets (quoi que là, ça évolue tellement aussi et puis ça dépend de ce qu'on accepte comme brevets, tout les logiciels doivent en violer).
[^] # Re: DjVu
Posté par seginus . Évalué à 1.
:D
[^] # Re: DjVu
Posté par Nelis (site web personnel) . Évalué à 2.
Et il y a apparemment moyen de mettre aussi des métadata dans les fichiers.
[^] # Re: DjVu
Posté par MrLapinot (site web personnel) . Évalué à 1.
[^] # Re: DjVu
Posté par ZeroHeure . Évalué à 2.
La simplicité des encodeurs libres signifie surtout que le fichier est plus gros qu'avec l'encodeur propriétaire.
Ça peut t'intéresser, il existe un convertisseur pdf2DjVu
"La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay
[^] # Re: DjVu
Posté par Anonyme . Évalué à 3.
http://cardinalderichelieu.free.fr/ (il faut un plugin ou le programme djvu installé)
lien direct
http://cardinalderichelieu.free.fr/djvu/table.djvu
en djvu, c'est un livre scanné, l'avantage et que tu as le choix de faire soit un document qui contient tout mais peu adapté pour le web, ou une page -> une image
la c'est en noir et blanc mais tu as le choix suivant ce que contient ton document, image etc... lis le man djvu c'est tres bien expliqué. en plus cela bosse tres bien avec bash pour scripter tous cela.
dommage que cela ne soit pas repandu.
[^] # Re: DjVu
Posté par Nelis (site web personnel) . Évalué à 1.
J'ai vu qu'il existait un DjvuXML mais il n'y a pas beaucoup d'info dessus ...
En gros, ce que j'aimerais c'est stocker certaines métadata pour pouvoir faire des query du genre : tous les documents du type "fiche de salaire" de l'année 2004.
[^] # Re: DjVu
Posté par Anonyme . Évalué à 1.
sur internet il y a pas mal d'exemple avec le DjvuXML.
# pour les métadonnées
Posté par 태 (site web personnel) . Évalué à 4.
# TiFF et PDF
Posté par dawar (site web personnel) . Évalué à 5.
Autant utiliser directement du JPEG, qui permet avec les EXIF de mettre plein d'annotations. En plus, il existe une multitude de logiciel pour gérer les JPEG, donc autant utiliser ce format.
Le PDF est un format vectoriel, il n'a d'interet que si l'on mets du vectoriel dedant, par exemple ton document scanné et passé à l'OCR. Sinon, c'est un peu comme imaginer améliorer la qualité de ses mp3 en les passant en WAV...
[^] # Re: TiFF et PDF
Posté par Frédéric COIFFIER . Évalué à 2.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.