Derniers journaux de nelis :
- [14/02@09:50] La version m5-rc14 du SDK Android vient de sortir
- [11/02@16:11] Yahoo !
- [04/02@12:55] Yahoo! entre en résistance ?
- [22/11@10:45] Compatibilité ASL et GPL 3
- [22/08@09:41] Internet, repère de communistes anarchistes incultes
- [05/07@08:05] Qui veut gagner des millions ?
- [18/06@09:44] [Semi-HS]TomTom One XL
- [12/06@13:08] SPPF veut réviser DADVSI
- [21/05@09:53] Vous n'allez pas rigoler ...
- [16/03@12:01] Votre musique vous suit n'importe où
- [16/03@09:43] Les publicitaires m'emmerdent ...
- [14/12@11:56] Chaine hifi avec disque dur
- [06/12@14:07] Filtrage IP sur France2.fr
- [05/12@14:11] Open Nabaztag ?
- [08/11@09:00] Quel distribution Linux sur un vieux PC pour un non-informaticien ?
- [20/09@08:13] Google vs. la presse belge, Google fait appel !
- [24/04@12:06] Réflexion sur le cinéma indépendant ...
- [02/03@11:14] Positionnement CSS
- [23/02@08:42] L'intolérance parmi les "extrêmistes" du libre
- [21/02@12:16] Les brevets logiciels déchirent l'Europe
Journal : Numérisation des documents administratifs avec métadonnées
Posté par Nelis (page perso, ) le 07 avril 2008Etant donné que je suis un bordélique irrécupérable mais que j'aimerais quand même ne pas perdre certains documents importants (fiches de salaires, contrats, factures, ...), je suis en train de réfléchir de la meilleure manière de numériser tout ça.
Au boulot, on a une imprimante/photocopieuse qui peut scanner des documents directement en PDF, c'est déjà un bon début.
Maintenant je me pose plusieurs questions :
- Les PDFs générés sont dans une vieille version du format, ne vaut-il pas mieux numériser en TIFF et convertir en PDF après (Y'a-t-il des logiciels libres de préférence qui peuvent faire ça ?)
- Le scanner ne fait pas d'OCR, ça serait pourtant pas mal de pouvoir faire des recherches dans les PDF, connaissez-vous un moyen d'appliquer un OCR sur un PDF existant ?
- Au niveau de la résolution, je le fais en 300DPI greyscale, je pense que c'est suffisant.
- J'aimerais embarquer des métadonnées dans le PDF (organisme source du document, type de document, date du document, ...), quel est le meilleur moyen de faire ça sans que les métadonnées ne se perdent dès que le document est déplacé ? J'ai entendu parler de XMP mais je ne sais pas si c'est fait pour ça.
- Pour le stockage de ces infos : disque local avec backup ? Remote FS style Amazon S3 ?
Bref, est-ce que l'un de vous a déjà tenté l'expérience, et si oui, peut-il indiquer quelle solution il a retenu, quels sont les pièges, ...
Je ne pense pas être le seul à rechercher ce type de solution donc toute info est la bienvenue :-)
> Lire le journal (20 commentaires, moyenne: 2,5).
Loi
Faudrait d'abord savoir si ta numérisation va servir à quelque chose. Je pense que pour des papiers administratifs c'est l'original qui compte donc le fait d'avoir un beau pdf ne sert à rien.
-
[^]Re: Loi
Posté par Nelis (page perso, ) le 07/04/2008 à 17:26. (lien). Évalué à 5.Pour tout ce qui est facture, fiche de salaire, ... ça ne pose pas de problème.
Pour ce qui est des documents notariés (acte de propriété) ça ne pose pas de soucis non plus (ça équivaut à des photocopies).
Pour les papiers liés par exemple aux impôts ça effectivement je ne sais pas si une copie est acceptée, mais heureusement en Belgique ils nous les fournissent déjà en PDF :-)--
Vache qui rit, à moitié dans son lit
[+] Question sur la langue française
Dites, j'ai un problème de français.
Dans le français que j'ai appris, on m'a dit que :
- Un journal, dans son esprit, c'est celui qui écrit qui fourni l'information
- Un forum, dans son esprit, celui qui écrit a un besoin, et les autres répondent.
Je suis certain d'avoir cliqué sur "Journal", et je trouve un truc sans information, mais où quelqu'un demande, du coup j'ai un problème : j'aimerai savoir où est mon erreur dans mon français.
-
[^]Re: Question sur la langue française
Posté par Nelis (page perso, ) le 07/04/2008 à 17:30. (lien). Évalué à 10.- Ce journal fait plus que poser une question technique mais demande des retours sur expérience sur un sujet qui à mon avis intéresse pas mal de monde.
- A ce que je sache, rien n'interdit dans la politique éditoriale de linuxfr de poser des questions dans les journaux.
- Si ça te plait pas tu lis pas.
- Y'en a marre des branleurs qui râle dès qu'un journal ne correspond pas exactement à l'idée qu'ils se font d'un journal.
- Si t'as que ça à foutre que d'aller lire des journaux qui ne t'intéressent pas pour râler, ta vie doit être passionnante.--
Vache qui rit, à moitié dans son lit-
[^]Re: Question sur la langue française
Posté par Snarky (Jabber id, page perso, ) le 07/04/2008 à 17:32. (lien). Évalué à 3.En même temps, il faut bien le lire pour savoir qu'il ne nous interesse pas... non ?
--
Milite pour un about:black sur les navigateurs ! (Sauvons la planète)-
[^]Re: Question sur la langue française
Posté par Nelis (page perso, ) le 07/04/2008 à 17:35. (lien). Évalué à 5.Pas faux ;-)
Mais souvent, rien qu'avec le titre ou au bout de deux lignes, on se rend compte si ça nous intéresse ou pas.
Ouvrir le journal, tout lire, et laisser un commentaire pour râler sur un truc qui ne nous intéresse pas, il faut être motivé !--
Vache qui rit, à moitié dans son lit
-
-
OCR , tessaract etc...
Pour l'OCR je te renvoye à l'article sur Tessaract couplé à Gscan2PDF
http://ubunteros.tuxfamily.org/spip.php?article148
DjVu
Il faudra peut-être aller voir du côté du format DjVu :
DjVu (pronounced "déjà vu") is a digital document format with advanced compression technology and high performance value. DjVu allows for the distribution on the Internet and on DVD of very high resolution images of scanned documents, digital documents, and photographs. DjVu viewers are available for the web browser, the desktop, and PDA devices.
http://djvu.org/
http://en.wikipedia.org/wiki/DjVu
http://www.madore.org/~david/weblog/2007-11.html#d.2007-11-0(...)
-
[^]Re: DjVu
Posté par seginus () le 08/04/2008 à 08:58. (lien). Évalué à 5.Allez, je m'y colle, je suis nul en anglais, mais je sais qu'il y en a beaucoup ici qui n'y comprennent rien du tout.
DJVu (prononcé déjà vu) est un format de document avec une technologie de compression avancée offrant de grande performance.
DjVu permet la diffusion par internet et en DVD d'images à très hautes résolutions de documents scannés, numériques et photographique.
Des visionneuses pour DjVu existe déjà pour le navigateur, le bureau et les PDA.
J'ai déjà testé, c'est vrai que le taux de compression pour un document texte est remarquable (peut-être moins intéressant pour les photos) et qui étrangement à du mal à être adopté et à se diffusé.
Pour le format est, sauf erreurs, libre et exempt de brevets (quoi que là, ça évolue tellement aussi et puis ça dépend de ce qu'on accepte comme brevets, tout les logiciels doivent en violer).-
[^]Re: DjVu
-
[^]Re: DjVu
Posté par Nelis (page perso, ) le 08/04/2008 à 09:25. (lien). Évalué à 2.Ce format a l'air assez bien foutu, et il y a une implémentation libre (DJVuLibre). Savez-vous si elle est fonctionnelle à 100%, car ils indiquent que les encodeurs sont 'simple' ou 'very simple'.
Et il y a apparemment moyen de mettre aussi des métadata dans les fichiers.--
Vache qui rit, à moitié dans son lit-
[^]Re: DjVu
Posté par MrLapinot (Jabber id, page perso, ) le 08/04/2008 à 10:28. (lien). Évalué à 1.En plus, pour la question de l'OCR, j'ai déjà récupéré un document DJVU qui était manifestement un texte scanné mais sur lequel il était possible de faire des recherches textuelles. Je ne sais pas comment ça fonctionnait, j'imagine qu'il y avait eu une phase d'OCR préalable et qu'il est possible d'inclure ces informations au sein même du fichier DJVU. En tout cas, c'était très impressionnant. À approfondir.
-
[^]Re: DjVu
Posté par zero heure (Jabber id, page perso, ) le 08/04/2008 à 10:59. (lien). Évalué à 2.Oui c'est fonctionnel, c'est déjà utilisé par pas mal de projets dans le monde documentaire et scientifique. Il y a aussi des bibliothèques numériques qui s'en servent ; si j'ai bonne mémoire il y a quelques exemples à partir de http://www.DjVu.org et de http://www.greenstone.org (Greenstone est un logiciel de bibliothèque numérique).
La simplicité des encodeurs libres signifie surtout que le fichier est plus gros qu'avec l'encodeur propriétaire.
Ça peut t'intéresser, il existe un convertisseur pdf2DjVu--
J'ai vu bien des choses dans ma petite vie, et je mesure amèrement l'impuissance à les dire. (JP Rosnay, Le 13ème apôtre) http://www.poesie.net/apotre2.htm-
[^]Re: DjVu
Posté par dark_star () le 08/04/2008 à 11:18. (lien). Évalué à 3.un exemple que j'ai effectué:
http://cardinalderichelieu.free.fr/ (il faut un plugin ou le programme djvu installé)
lien direct
http://cardinalderichelieu.free.fr/djvu/table.djvu
en djvu, c'est un livre scanné, l'avantage et que tu as le choix de faire soit un document qui contient tout mais peu adapté pour le web, ou une page -> une image
la c'est en noir et blanc mais tu as le choix suivant ce que contient ton document, image etc... lis le man djvu c'est tres bien expliqué. en plus cela bosse tres bien avec bash pour scripter tous cela.
dommage que cela ne soit pas repandu.-
[^]Re: DjVu
Posté par Nelis (page perso, ) le 08/04/2008 à 11:46. (lien). Évalué à 1.Et au niveau des métadata, as-tu expérimenté la chose ?
J'ai vu qu'il existait un DjvuXML mais il n'y a pas beaucoup d'info dessus ...
En gros, ce que j'aimerais c'est stocker certaines métadata pour pouvoir faire des query du genre : tous les documents du type "fiche de salaire" de l'année 2004.--
Vache qui rit, à moitié dans son lit-
[^]Re: DjVu
-
-
-
-
-
TiFF et PDF
Numériser en TIFF pour passer le document en PDF ne présente aucun interet. Le format PDF utilise des images JPEG, tu vas donc avoir du JPEG dans un conteneur PDF.
Autant utiliser directement du JPEG, qui permet avec les EXIF de mettre plein d'annotations. En plus, il existe une multitude de logiciel pour gérer les JPEG, donc autant utiliser ce format.
Le PDF est un format vectoriel, il n'a d'interet que si l'on mets du vectoriel dedant, par exemple ton document scanné et passé à l'OCR. Sinon, c'est un peu comme imaginer améliorer la qualité de ses mp3 en les passant en WAV...
-
[^]Re: TiFF et PDF
Posté par Frédéric COIFFIER () le 09/04/2008 à 14:27. (lien). Évalué à 2.Moi, j'aime bien le PDF car on peut y inclure plusieurs pages dans un seul fichier et surtout, pour l'impression, on imprime à l'échelle d'origine (avec le JPEG, je suis pas sur que ça marche par défaut avec n'importe quel soft dont la visionneuse Windows).

Les journaux sont destinés à des informations qui ne sont pas suffisamment intéressantes
pour être validées en dépêche (sinon n'hésitez pas à proposer votre information en
dépêche), qui sont sans rapport avec Linux ou le libre, ou simplement pour donner votre
avis. Si vous désirez poser une question, merci d'utiliser 

Cette discussion est archivée, il n'est plus possible de laisser des commentaires.
Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.