Journal Numérisation des documents administratifs avec métadonnées

Posté par  (site web personnel) .
Étiquettes :
0
7
avr.
2008
Salut,

Etant donné que je suis un bordélique irrécupérable mais que j'aimerais quand même ne pas perdre certains documents importants (fiches de salaires, contrats, factures, ...), je suis en train de réfléchir de la meilleure manière de numériser tout ça.

Au boulot, on a une imprimante/photocopieuse qui peut scanner des documents directement en PDF, c'est déjà un bon début.

Maintenant je me pose plusieurs questions :

- Les PDFs générés sont dans une vieille version du format, ne vaut-il pas mieux numériser en TIFF et convertir en PDF après (Y'a-t-il des logiciels libres de préférence qui peuvent faire ça ?)
- Le scanner ne fait pas d'OCR, ça serait pourtant pas mal de pouvoir faire des recherches dans les PDF, connaissez-vous un moyen d'appliquer un OCR sur un PDF existant ?
- Au niveau de la résolution, je le fais en 300DPI greyscale, je pense que c'est suffisant.
- J'aimerais embarquer des métadonnées dans le PDF (organisme source du document, type de document, date du document, ...), quel est le meilleur moyen de faire ça sans que les métadonnées ne se perdent dès que le document est déplacé ? J'ai entendu parler de XMP mais je ne sais pas si c'est fait pour ça.
- Pour le stockage de ces infos : disque local avec backup ? Remote FS style Amazon S3 ?

Bref, est-ce que l'un de vous a déjà tenté l'expérience, et si oui, peut-il indiquer quelle solution il a retenu, quels sont les pièges, ...

Je ne pense pas être le seul à rechercher ce type de solution donc toute info est la bienvenue :-)
  • # Loi

    Posté par  (site web personnel) . Évalué à 3.

    Faudrait d'abord savoir si ta numérisation va servir à quelque chose. Je pense que pour des papiers administratifs c'est l'original qui compte donc le fait d'avoir un beau pdf ne sert à rien.
    • [^] # Re: Loi

      Posté par  (site web personnel) . Évalué à 5.

      Pour tout ce qui est facture, fiche de salaire, ... ça ne pose pas de problème.
      Pour ce qui est des documents notariés (acte de propriété) ça ne pose pas de soucis non plus (ça équivaut à des photocopies).

      Pour les papiers liés par exemple aux impôts ça effectivement je ne sais pas si une copie est acceptée, mais heureusement en Belgique ils nous les fournissent déjà en PDF :-)
  • # Question sur la langue française

    Posté par  (site web personnel) . Évalué à -10.

    Dites, j'ai un problème de français.
    Dans le français que j'ai appris, on m'a dit que :
    - Un journal, dans son esprit, c'est celui qui écrit qui fourni l'information
    - Un forum, dans son esprit, celui qui écrit a un besoin, et les autres répondent.

    Je suis certain d'avoir cliqué sur "Journal", et je trouve un truc sans information, mais où quelqu'un demande, du coup j'ai un problème : j'aimerai savoir où est mon erreur dans mon français.
    • [^] # Re: Question sur la langue française

      Posté par  (site web personnel) . Évalué à 10.

      - Ce journal fait plus que poser une question technique mais demande des retours sur expérience sur un sujet qui à mon avis intéresse pas mal de monde.
      - A ce que je sache, rien n'interdit dans la politique éditoriale de linuxfr de poser des questions dans les journaux.
      - Si ça te plait pas tu lis pas.
      - Y'en a marre des branleurs qui râle dès qu'un journal ne correspond pas exactement à l'idée qu'ils se font d'un journal.
      - Si t'as que ça à foutre que d'aller lire des journaux qui ne t'intéressent pas pour râler, ta vie doit être passionnante.
      • [^] # Re: Question sur la langue française

        Posté par  . Évalué à 3.

        En même temps, il faut bien le lire pour savoir qu'il ne nous interesse pas... non ?
        • [^] # Re: Question sur la langue française

          Posté par  (site web personnel) . Évalué à 5.

          Pas faux ;-)

          Mais souvent, rien qu'avec le titre ou au bout de deux lignes, on se rend compte si ça nous intéresse ou pas.

          Ouvrir le journal, tout lire, et laisser un commentaire pour râler sur un truc qui ne nous intéresse pas, il faut être motivé !
  • # OCR , tessaract etc...

    Posté par  . Évalué à 1.

    Pour l'OCR je te renvoye à l'article sur Tessaract couplé à Gscan2PDF

    http://ubunteros.tuxfamily.org/spip.php?article148
    • [^] # Re: OCR , tessaract etc...

      Posté par  . Évalué à -3.

      Sinon un coup de pdftotext devrait suffire(par contre je suis pas certain que les accents soient bien gérés).
  • # DjVu

    Posté par  (site web personnel) . Évalué à 8.

    Il faudra peut-être aller voir du côté du format DjVu :

    DjVu (pronounced "déjà vu") is a digital document format with advanced compression technology and high performance value. DjVu allows for the distribution on the Internet and on DVD of very high resolution images of scanned documents, digital documents, and photographs. DjVu viewers are available for the web browser, the desktop, and PDA devices.

    http://djvu.org/
    http://en.wikipedia.org/wiki/DjVu
    http://www.madore.org/~david/weblog/2007-11.html#d.2007-11-0(...)
    • [^] # Re: DjVu

      Posté par  . Évalué à 5.

      Allez, je m'y colle, je suis nul en anglais, mais je sais qu'il y en a beaucoup ici qui n'y comprennent rien du tout.

      DJVu (prononcé déjà vu) est un format de document avec une technologie de compression avancée offrant de grande performance.
      DjVu permet la diffusion par internet et en DVD d'images à très hautes résolutions de documents scannés, numériques et photographique.
      Des visionneuses pour DjVu existe déjà pour le navigateur, le bureau et les PDA.

      J'ai déjà testé, c'est vrai que le taux de compression pour un document texte est remarquable (peut-être moins intéressant pour les photos) et qui étrangement à du mal à être adopté et à se diffusé.
      Pour le format est, sauf erreurs, libre et exempt de brevets (quoi que là, ça évolue tellement aussi et puis ça dépend de ce qu'on accepte comme brevets, tout les logiciels doivent en violer).
      • [^] # Re: DjVu

        Posté par  . Évalué à 1.

        Oui, je sais, il n'y a pas qu'en anglais que je suis nul…
        :D
      • [^] # Re: DjVu

        Posté par  (site web personnel) . Évalué à 2.

        Ce format a l'air assez bien foutu, et il y a une implémentation libre (DJVuLibre). Savez-vous si elle est fonctionnelle à 100%, car ils indiquent que les encodeurs sont 'simple' ou 'very simple'.
        Et il y a apparemment moyen de mettre aussi des métadata dans les fichiers.
        • [^] # Re: DjVu

          Posté par  (site web personnel) . Évalué à 1.

          En plus, pour la question de l'OCR, j'ai déjà récupéré un document DJVU qui était manifestement un texte scanné mais sur lequel il était possible de faire des recherches textuelles. Je ne sais pas comment ça fonctionnait, j'imagine qu'il y avait eu une phase d'OCR préalable et qu'il est possible d'inclure ces informations au sein même du fichier DJVU. En tout cas, c'était très impressionnant. À approfondir.
        • [^] # Re: DjVu

          Posté par  (site web personnel) . Évalué à 2.

          Oui c'est fonctionnel, c'est déjà utilisé par pas mal de projets dans le monde documentaire et scientifique. Il y a aussi des bibliothèques numériques qui s'en servent ; si j'ai bonne mémoire il y a quelques exemples à partir de http://www.DjVu.org et de http://www.greenstone.org (Greenstone est un logiciel de bibliothèque numérique).

          La simplicité des encodeurs libres signifie surtout que le fichier est plus gros qu'avec l'encodeur propriétaire.

          Ça peut t'intéresser, il existe un convertisseur pdf2DjVu

          "La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay

          • [^] # Re: DjVu

            Posté par  . Évalué à 3.

            un exemple que j'ai effectué:

            http://cardinalderichelieu.free.fr/ (il faut un plugin ou le programme djvu installé)
            lien direct

            http://cardinalderichelieu.free.fr/djvu/table.djvu

            en djvu, c'est un livre scanné, l'avantage et que tu as le choix de faire soit un document qui contient tout mais peu adapté pour le web, ou une page -> une image

            la c'est en noir et blanc mais tu as le choix suivant ce que contient ton document, image etc... lis le man djvu c'est tres bien expliqué. en plus cela bosse tres bien avec bash pour scripter tous cela.

            dommage que cela ne soit pas repandu.
            • [^] # Re: DjVu

              Posté par  (site web personnel) . Évalué à 1.

              Et au niveau des métadata, as-tu expérimenté la chose ?
              J'ai vu qu'il existait un DjvuXML mais il n'y a pas beaucoup d'info dessus ...

              En gros, ce que j'aimerais c'est stocker certaines métadata pour pouvoir faire des query du genre : tous les documents du type "fiche de salaire" de l'année 2004.
              • [^] # Re: DjVu

                Posté par  . Évalué à 1.

                non, mais cela semble assez simple d'attachez des mots par pages, quand il y auras un OCR correcte libre je passerais tout a la moulinette pour avoir le texte en plus de l'image.

                sur internet il y a pas mal d'exemple avec le DjvuXML.
  • # pour les métadonnées

    Posté par  (site web personnel) . Évalué à 4.

    pdf contient déjà ses méta données, pourquoi ne pas les utiliser ? pdftk par exemple sait les modifier. La plupart des viewers sait les afficher...
  • # TiFF et PDF

    Posté par  (site web personnel) . Évalué à 5.

    Numériser en TIFF pour passer le document en PDF ne présente aucun interet. Le format PDF utilise des images JPEG, tu vas donc avoir du JPEG dans un conteneur PDF.

    Autant utiliser directement du JPEG, qui permet avec les EXIF de mettre plein d'annotations. En plus, il existe une multitude de logiciel pour gérer les JPEG, donc autant utiliser ce format.

    Le PDF est un format vectoriel, il n'a d'interet que si l'on mets du vectoriel dedant, par exemple ton document scanné et passé à l'OCR. Sinon, c'est un peu comme imaginer améliorer la qualité de ses mp3 en les passant en WAV...
    • [^] # Re: TiFF et PDF

      Posté par  . Évalué à 2.

      Moi, j'aime bien le PDF car on peut y inclure plusieurs pages dans un seul fichier et surtout, pour l'impression, on imprime à l'échelle d'origine (avec le JPEG, je suis pas sur que ça marche par défaut avec n'importe quel soft dont la visionneuse Windows).

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.