Journal : Numérisation des documents administratifs avec métadonnées

Posté par Nelis (page perso, ) le 07 avril 2008
0
Salut,

Etant donné que je suis un bordélique irrécupérable mais que j'aimerais quand même ne pas perdre certains documents importants (fiches de salaires, contrats, factures, ...), je suis en train de réfléchir de la meilleure manière de numériser tout ça.

Au boulot, on a une imprimante/photocopieuse qui peut scanner des documents directement en PDF, c'est déjà un bon début.

Maintenant je me pose plusieurs questions :

- Les PDFs générés sont dans une vieille version du format, ne vaut-il pas mieux numériser en TIFF et convertir en PDF après (Y'a-t-il des logiciels libres de préférence qui peuvent faire ça ?)
- Le scanner ne fait pas d'OCR, ça serait pourtant pas mal de pouvoir faire des recherches dans les PDF, connaissez-vous un moyen d'appliquer un OCR sur un PDF existant ?
- Au niveau de la résolution, je le fais en 300DPI greyscale, je pense que c'est suffisant.
- J'aimerais embarquer des métadonnées dans le PDF (organisme source du document, type de document, date du document, ...), quel est le meilleur moyen de faire ça sans que les métadonnées ne se perdent dès que le document est déplacé ? J'ai entendu parler de XMP mais je ne sais pas si c'est fait pour ça.
- Pour le stockage de ces infos : disque local avec backup ? Remote FS style Amazon S3 ?

Bref, est-ce que l'un de vous a déjà tenté l'expérience, et si oui, peut-il indiquer quelle solution il a retenu, quels sont les pièges, ...

Je ne pense pas être le seul à rechercher ce type de solution donc toute info est la bienvenue :-)

> Lire le journal (20 commentaires, moyenne: 2,5).  

Cette discussion est archivée, il n'est plus possible de laisser des commentaires.

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.

Loi

Posté par patrick_g (page perso, ) le 07/04/2008 à 17:19. (lien). Évalué à 3.

Faudrait d'abord savoir si ta numérisation va servir à quelque chose. Je pense que pour des papiers administratifs c'est l'original qui compte donc le fait d'avoir un beau pdf ne sert à rien.

  • [^]Re: Loi

    Posté par Nelis (page perso, ) le 07/04/2008 à 17:26. (lien). Évalué à 5.

    Pour tout ce qui est facture, fiche de salaire, ... ça ne pose pas de problème.
    Pour ce qui est des documents notariés (acte de propriété) ça ne pose pas de soucis non plus (ça équivaut à des photocopies).

    Pour les papiers liés par exemple aux impôts ça effectivement je ne sais pas si une copie est acceptée, mais heureusement en Belgique ils nous les fournissent déjà en PDF :-)

    --
    Vache qui rit, à moitié dans son lit

[+] Question sur la langue française

Posté par Zenitram (page perso, ) le 07/04/2008 à 17:20. (lien). Évalué à -10.

Dites, j'ai un problème de français.
Dans le français que j'ai appris, on m'a dit que :
- Un journal, dans son esprit, c'est celui qui écrit qui fourni l'information
- Un forum, dans son esprit, celui qui écrit a un besoin, et les autres répondent.

Je suis certain d'avoir cliqué sur "Journal", et je trouve un truc sans information, mais où quelqu'un demande, du coup j'ai un problème : j'aimerai savoir où est mon erreur dans mon français.

  • [^]Re: Question sur la langue française

    Posté par Nelis (page perso, ) le 07/04/2008 à 17:30. (lien). Évalué à 10.

    - Ce journal fait plus que poser une question technique mais demande des retours sur expérience sur un sujet qui à mon avis intéresse pas mal de monde.
    - A ce que je sache, rien n'interdit dans la politique éditoriale de linuxfr de poser des questions dans les journaux.
    - Si ça te plait pas tu lis pas.
    - Y'en a marre des branleurs qui râle dès qu'un journal ne correspond pas exactement à l'idée qu'ils se font d'un journal.
    - Si t'as que ça à foutre que d'aller lire des journaux qui ne t'intéressent pas pour râler, ta vie doit être passionnante.

    --
    Vache qui rit, à moitié dans son lit
    • [^]Re: Question sur la langue française

      Posté par Snarky (Jabber id, page perso, ) le 07/04/2008 à 17:32. (lien). Évalué à 3.

      En même temps, il faut bien le lire pour savoir qu'il ne nous interesse pas... non ?

      --
      Milite pour un about:black sur les navigateurs ! (Sauvons la planète)
      • [^]Re: Question sur la langue française

        Posté par Nelis (page perso, ) le 07/04/2008 à 17:35. (lien). Évalué à 5.

        Pas faux ;-)

        Mais souvent, rien qu'avec le titre ou au bout de deux lignes, on se rend compte si ça nous intéresse ou pas.

        Ouvrir le journal, tout lire, et laisser un commentaire pour râler sur un truc qui ne nous intéresse pas, il faut être motivé !

        --
        Vache qui rit, à moitié dans son lit

OCR , tessaract etc...

Posté par eastwind (Jabber id, ) le 07/04/2008 à 17:36. (lien). Évalué à 1.

Pour l'OCR je te renvoye à l'article sur Tessaract couplé à Gscan2PDF

http://ubunteros.tuxfamily.org/spip.php?article148

  • [+] [^]Re: OCR , tessaract etc...

    Posté par Smarter () le 07/04/2008 à 20:13. (lien). Évalué à -3.

    Sinon un coup de pdftotext devrait suffire(par contre je suis pas certain que les accents soient bien gérés).

DjVu

Posté par Archibald (page perso, ) le 07/04/2008 à 17:45. (lien). Évalué à 8.

Il faudra peut-être aller voir du côté du format DjVu :

DjVu (pronounced "déjà vu") is a digital document format with advanced compression technology and high performance value. DjVu allows for the distribution on the Internet and on DVD of very high resolution images of scanned documents, digital documents, and photographs. DjVu viewers are available for the web browser, the desktop, and PDA devices.

http://djvu.org/
http://en.wikipedia.org/wiki/DjVu
http://www.madore.org/~david/weblog/2007-11.html#d.2007-11-0(...)

  • [^]Re: DjVu

    Posté par seginus () le 08/04/2008 à 08:58. (lien). Évalué à 5.

    Allez, je m'y colle, je suis nul en anglais, mais je sais qu'il y en a beaucoup ici qui n'y comprennent rien du tout.

    DJVu (prononcé déjà vu) est un format de document avec une technologie de compression avancée offrant de grande performance.
    DjVu permet la diffusion par internet et en DVD d'images à très hautes résolutions de documents scannés, numériques et photographique.
    Des visionneuses pour DjVu existe déjà pour le navigateur, le bureau et les PDA.

    J'ai déjà testé, c'est vrai que le taux de compression pour un document texte est remarquable (peut-être moins intéressant pour les photos) et qui étrangement à du mal à être adopté et à se diffusé.
    Pour le format est, sauf erreurs, libre et exempt de brevets (quoi que là, ça évolue tellement aussi et puis ça dépend de ce qu'on accepte comme brevets, tout les logiciels doivent en violer).

    • [^]Re: DjVu

      Posté par seginus () le 08/04/2008 à 09:00. (lien). Évalué à 1.

      Oui, je sais, il n'y a pas qu'en anglais que je suis nul…
      :D

    • [^]Re: DjVu

      Posté par Nelis (page perso, ) le 08/04/2008 à 09:25. (lien). Évalué à 2.

      Ce format a l'air assez bien foutu, et il y a une implémentation libre (DJVuLibre). Savez-vous si elle est fonctionnelle à 100%, car ils indiquent que les encodeurs sont 'simple' ou 'very simple'.
      Et il y a apparemment moyen de mettre aussi des métadata dans les fichiers.

      --
      Vache qui rit, à moitié dans son lit
      • [^]Re: DjVu

        Posté par MrLapinot (Jabber id, page perso, ) le 08/04/2008 à 10:28. (lien). Évalué à 1.

        En plus, pour la question de l'OCR, j'ai déjà récupéré un document DJVU qui était manifestement un texte scanné mais sur lequel il était possible de faire des recherches textuelles. Je ne sais pas comment ça fonctionnait, j'imagine qu'il y avait eu une phase d'OCR préalable et qu'il est possible d'inclure ces informations au sein même du fichier DJVU. En tout cas, c'était très impressionnant. À approfondir.

      • [^]Re: DjVu

        Posté par zero heure (Jabber id, page perso, ) le 08/04/2008 à 10:59. (lien). Évalué à 2.

        Oui c'est fonctionnel, c'est déjà utilisé par pas mal de projets dans le monde documentaire et scientifique. Il y a aussi des bibliothèques numériques qui s'en servent ; si j'ai bonne mémoire il y a quelques exemples à partir de http://www.DjVu.org et de http://www.greenstone.org (Greenstone est un logiciel de bibliothèque numérique).

        La simplicité des encodeurs libres signifie surtout que le fichier est plus gros qu'avec l'encodeur propriétaire.

        Ça peut t'intéresser, il existe un convertisseur pdf2DjVu

        --
        J'ai vu bien des choses dans ma petite vie, et je mesure amèrement l'impuissance à les dire. (JP Rosnay, Le 13ème apôtre) http://www.poesie.net/apotre2.htm
        • [^]Re: DjVu

          Posté par dark_star () le 08/04/2008 à 11:18. (lien). Évalué à 3.

          un exemple que j'ai effectué:

          http://cardinalderichelieu.free.fr/ (il faut un plugin ou le programme djvu installé)
          lien direct

          http://cardinalderichelieu.free.fr/djvu/table.djvu

          en djvu, c'est un livre scanné, l'avantage et que tu as le choix de faire soit un document qui contient tout mais peu adapté pour le web, ou une page -> une image

          la c'est en noir et blanc mais tu as le choix suivant ce que contient ton document, image etc... lis le man djvu c'est tres bien expliqué. en plus cela bosse tres bien avec bash pour scripter tous cela.

          dommage que cela ne soit pas repandu.

          • [^]Re: DjVu

            Posté par Nelis (page perso, ) le 08/04/2008 à 11:46. (lien). Évalué à 1.

            Et au niveau des métadata, as-tu expérimenté la chose ?
            J'ai vu qu'il existait un DjvuXML mais il n'y a pas beaucoup d'info dessus ...

            En gros, ce que j'aimerais c'est stocker certaines métadata pour pouvoir faire des query du genre : tous les documents du type "fiche de salaire" de l'année 2004.

            --
            Vache qui rit, à moitié dans son lit
            • [^]Re: DjVu

              Posté par dark_star () le 08/04/2008 à 21:17. (lien). Évalué à 1.

              non, mais cela semble assez simple d'attachez des mots par pages, quand il y auras un OCR correcte libre je passerais tout a la moulinette pour avoir le texte en plus de l'image.

              sur internet il y a pas mal d'exemple avec le DjvuXML.

pour les métadonnées

Posté par Ernest H (Jabber id, ) le 07/04/2008 à 21:36. (lien). Évalué à 4.

pdf contient déjà ses méta données, pourquoi ne pas les utiliser ? pdftk par exemple sait les modifier. La plupart des viewers sait les afficher...

TiFF et PDF

Posté par dawar (page perso, ) le 08/04/2008 à 12:02. (lien). Évalué à 5.

Numériser en TIFF pour passer le document en PDF ne présente aucun interet. Le format PDF utilise des images JPEG, tu vas donc avoir du JPEG dans un conteneur PDF.

Autant utiliser directement du JPEG, qui permet avec les EXIF de mettre plein d'annotations. En plus, il existe une multitude de logiciel pour gérer les JPEG, donc autant utiliser ce format.

Le PDF est un format vectoriel, il n'a d'interet que si l'on mets du vectoriel dedant, par exemple ton document scanné et passé à l'OCR. Sinon, c'est un peu comme imaginer améliorer la qualité de ses mp3 en les passant en WAV...

  • [^]Re: TiFF et PDF

    Posté par Frédéric COIFFIER () le 09/04/2008 à 14:27. (lien). Évalué à 2.

    Moi, j'aime bien le PDF car on peut y inclure plusieurs pages dans un seul fichier et surtout, pour l'impression, on imprime à l'échelle d'origine (avec le JPEG, je suis pas sur que ça marche par défaut avec n'importe quel soft dont la visionneuse Windows).

Revenir en haut de page