Journal Paperless...

Posté par . Licence CC by-sa
13
19
avr.
2013

Cher journal,

Plusieurs semaines de congés arrivant, j'aimerai entamer mon projet de numérisation de toute ma paperasse administrative qui me prend une place folle et d'envoyer tous ces bits indigestes vers mon NAS.
Pour la partie numérisation, j'avais pensé au DoxieGo qui me parait pas mal et surtout ne prend pas une place folle.
Mes interrogation viennent de la partie GED, j'avais pensé monter un Alfresco sur une VM mais j'ai peur que cela soit un peu "overkill", qu'en penses-tu ?

  • # tout se perd ma bonne dame

    Posté par . Évalué à 10.

    j'en pense que les congés payés, c'est plus ce que c'était.

  • # Déjà fait

    Posté par (page perso) . Évalué à 3.

    J'avais vu passer ici des retour sur la GED.

    Cela fait plus d'un an je crois…

    Bon courage pour la recherche.

  • # Quelques pistes à creuser

    Posté par . Évalué à 10.

    Pour ma part, cela fait 11 ans que je scanne tous mes documents officiels et administratifs. Je ne garde plus guère d'originaux papiers (si ce n'est mes diplômes et mes bulletins de paie). J'ai accumulé ainsi 2,5Go de documents scannés. À côté des photos de famille et autres bricoles volumineuses glânées sur le net, c'est peanuts. Évidemment, la solution de sauvegarde doit être à la hauteur. Pour le scan, j'ai un vieux scanner Epson dont l'introducteur automatique donne des signes de fatigue. Pour les scans volumineux, les photocopieurs/scanneurs du boulot sont idéaux. Ça scanne recto/verso, rapidement, ça stocke sur clé USB… Pratique… Pour m'y retrouver, ma foi, pas encore d'OCR. Juste un bon nommage des fichiers et des dossiers. En pratique, ça me suffit amplement. Démarrer l'archivage est fastidieux si on veut scanner tout un historique mais une fois ce seuil franchi, si on scanne avec régularité, ça se résume à une ou deux pages de temps en temps et quel bonheur de ne plus avoir des tas de boîtes d'archives bondées qui prennent la poussière.

    Voici quelques liens qui pourraient vous intéresser :
    - Paperwork, une appli conçue pour gérer des documents scannés (qui fait de l'OCR pour la recherche textuelle) - https://github.com/jflesch/paperwork
    - Format PDF/A - http://blog.konradvoelkel.de/2013/03/scan-to-pdfa/
    - http://www.generation-linux.fr/index.php?post/2013/04/05/Retour-d-exp%C3%A9rience-apr%C3%A8s-2-ans-d-auto-h%C3%A9bergement

    • [^] # Commentaire supprimé

      Posté par . Évalué à 0.

      Ce commentaire a été supprimé par l'équipe de modération.

    • [^] # Re: Quelques pistes à creuser

      Posté par . Évalué à 7.

      Pour m'y retrouver […] juste un bon nommage des fichiers et des dossiers

      Han attends mais ça va pas du tout là ! Tu veux dire que tu n'utilises ni tags ni indexation mais un paradigme du siècle dernier, et qu'en plus ça te convient bien ?! Je vais t'envoyer les gars de Google ou de GNOME et tu feras moins ton malin.

  • # Paperwork ?

    Posté par (page perso) . Évalué à 10. Dernière modification le 19/04/13 à 19:03.

    Vu que ça me semble être une réponse potentiellement pertinente à ta question, j'en profite pour me faire un peu de pub.

    Je travaille depuis un moment sur un programme appelé Paperwork. C'est un client lourd (Python/Gtk), et pour des questions de performances, je recommande d'avoir les documents en local. Ceci dit, rien n’empêche d'avoir les documents en local et de les rsync périodiquement sur ton NAS (mieux vaut avoir trop de copies de ses documents que pas assez).

    • [^] # Re: Paperwork ?

      Posté par (page perso) . Évalué à 3.

      Salut,

      Je suis à 100% de l'avis de Jérôme !

      J'utilise Paperwork depuis pas mal de temps et c'est assez sympa (avec un développeur vachement réactif et compétent ;) )

      https://www.domotego.com/ | https://www.maccagnoni.eu/ | https://www.smm-informatique.fr/

    • [^] # Re: Paperwork ?

      Posté par (page perso) . Évalué à 3.

      Je suis en train d'essayer et c'est bizarre, on dirait que j'ai des pertes de dossier (celui où je stocke mes scans) quand je l'utilise. Mais je ne vois pas trop a quel moment

      Et quand je fait "importer un ou plusieurs fichiers"

      Je vois dans le terminal
      Workers: [Progress bar updater: main window progress bar] started
      Workers: [Progress bar updater: main window progress bar] ended

      Mais il continue a tourner indéfiniment

      • [^] # Re: Paperwork ?

        Posté par (page perso) . Évalué à 1.

        Pour les pertes de dossiers, c'est plus que bizarre. J'ai du mal à voir ce qui pourrait causer ça dans Paperwork.

        Quant à l'import, quand il continue à tourner indéfiniment, généralement, c'est qu'il y a eut une exception Python non-catchée. Es-tu sûr que tu n'as aucune exception dans le terminal ? (éventuellement un peu plus haut que les 2 messages que tu as cité)

        • [^] # Re: Paperwork ?

          Posté par (page perso) . Évalué à 3.

          Pour les pertes de dossiers, c'est plus que bizarre. J'ai du mal à voir ce qui pourrait causer ça dans Paperwork.

          moi aussi, mais mon dossier était là puis a disparu (vive les backup). je vais essayer de le reproduire

          J'ai trouvé l'exception
          Worker [Importing file] raised an exception: GInterface.__init__() takes exactly 0 arguments (1 given)

          • [^] # Re: Paperwork ?

            Posté par (page perso) . Évalué à 2.

            Il me faudrait aussi la stacktrace qui devait être juste en-dessous de l'exception s'il-te-plait.

            • [^] # Re: Paperwork ?

              Posté par (page perso) . Évalué à 2.

              Action: [Import file(s)]
              Tried to use UI file ./import.glade but failed: L'ouverture du fichier « ./import.glade » a échoué : Aucun fichier ou dossier de ce type
              UI file used: src/paperwork/frontend/import.glade
              Import: file:///home/dj/Documents/scan/taxes/taxes_communales_2012.jpg
              Worker Importing file: 0 ; False
              Workers: Queueing [Importing file]
              Workers: [Importing file] started
              Importing doc 'file:///home/dj/Documents/scan/taxes/taxes_communales_2012.jpg'
              Workers: [Importing file] ended
              Worker [Importing file] raised an exception: GInterface.__init__() takes exactly 0 arguments (1 given)
               Traceback (most recent call last):
                File "/home/dj/Fichiers/paperwork/src/paperwork/frontend/workers.py", line 47, in run
                  worker._wrapper(**kwargs)
                File "/home/dj/Fichiers/paperwork/src/paperwork/frontend/workers.py", line 154, in _wrapper
                  self.__last_ret_value = BasicWorker._wrapper(self, **kwargs)
                File "/home/dj/Fichiers/paperwork/src/paperwork/frontend/workers.py", line 105, in _wrapper
                  return self.do(**kwargs)
                File "/home/dj/Fichiers/paperwork/src/paperwork/frontend/mainwindow.py", line 673, in do
                  self.__main_win.doc)
                File "/home/dj/Fichiers/paperwork/src/paperwork/backend/docimport.py", line 123, in import_doc
                  current_doc.import_image(file_uri, config.ocrlang)
                File "/home/dj/Fichiers/paperwork/src/paperwork/backend/img/doc.py", line 294, in import_image
                  img_fp = Gio.File(file_uri).read()
              TypeError: GInterface.__init__() takes exactly 0 arguments (1 given)
              Workers: [Progress bar updater: main window progress bar] started
              
              
              • [^] # Re: Paperwork ?

                Posté par (page perso) . Évalué à 2.

                Hm. J'ai pushé un fix temporaire sur Paperwork, mais il faudra que j'examine ça plus en détails dès que j'ai du temps. Il semblerait que j'ai cassé l'import d'image. Je ne vois juste pas comment j'ai pu rater ça, et il faudra que je vois comment faire un fix propre.

                • [^] # Re: Paperwork ?

                  Posté par (page perso) . Évalué à 3.

                  ça marche, merci

                  sinon dans les détails : l'icone de l'appli était manquante (trouvé dans data). Et l'OCR s'amuse a essayer de reconnaître les documents dans les 4 orientations, ce qui peut prendre du temps. ça peut être bien de mettre un option pour qu'on puisse le faire juste dans le sens normal

    • [^] # Re: Paperwork ?

      Posté par (page perso) . Évalué à 3.

      J'ai essayé de l'installer en suivant la doc mais j'ai plein d'erreurs quand je veux ouvrir la fenetre des préférences :

      Action: [Open settings dialog]
      Tried to use UI file ./settingswindow.glade but failed: L'ouverture du fichier « ./settingswindow.glade » a échoué : Aucun fichier ou dossier de ce type
      Tried to use UI file src/paperwork/frontend/settingswindow.glade but failed: L'ouverture du fichier « src/paperwork/frontend/settingswindow.glade » a échoué : Aucun fichier ou dossier de ce type
      UI file used: /usr/local/share/paperwork/settingswindow.glade
      Traceback (most recent call last):
        File "/usr/local/lib/python2.7/dist-packages/paperwork/frontend/actions.py", line 51, in on_button_clicked_cb
          return self.__do()
        File "/usr/local/lib/python2.7/dist-packages/paperwork/frontend/actions.py", line 48, in __do
          return self.do(**kwargs)
        File "/usr/local/lib/python2.7/dist-packages/paperwork/frontend/mainwindow.py", line 1094, in do
          sw = SettingsWindow(self.__main_win.window, self.__config)
        File "/usr/local/lib/python2.7/dist-packages/paperwork/frontend/settingswindow.py", line 484, in __init__
          self.display_config(config)
        File "/usr/local/lib/python2.7/dist-packages/paperwork/frontend/settingswindow.py", line 616, in display_config
          if short_lang == config.ocrlang:
        File "/usr/local/lib/python2.7/dist-packages/paperwork/backend/config.py", line 152, in __get_ocrlang
          ocr_langs = ocr_tools[0].get_available_languages()
      IndexError: list index out of range
      
      
      • [^] # Re: Paperwork ?

        Posté par (page perso) . Évalué à 1.

        Tesseract et Cuneiform ont besoin de fichiers de data pour chaque langue avec lesquelles tu souhaite travailler.
        Là l'exception indique qu'aucun fichier de data n'a été trouvé.

        Si tu utilises Ubuntu ou Debian: sudo apt-get install tesseract-ocr-fra .

        Je viens de voir que doc dans le README était tronquée sur ce point (une erreur de ma part dans le markdown). C'est corrigé.

        • [^] # Re: Paperwork ?

          Posté par (page perso) . Évalué à 2.

          Installé mais pas mieux

          Traceback (most recent call last):
            File "/usr/local/lib/python2.7/dist-packages/paperwork/frontend/actions.py", line 51, in on_button_clicked_cb
              return self.__do()
            File "/usr/local/lib/python2.7/dist-packages/paperwork/frontend/actions.py", line 48, in __do
              return self.do(**kwargs)
            File "/usr/local/lib/python2.7/dist-packages/paperwork/frontend/mainwindow.py", line 1094, in do
              sw = SettingsWindow(self.__main_win.window, self.__config)
            File "/usr/local/lib/python2.7/dist-packages/paperwork/frontend/settingswindow.py", line 484, in __init__
              self.display_config(config)
            File "/usr/local/lib/python2.7/dist-packages/paperwork/frontend/settingswindow.py", line 616, in display_config
              if short_lang == config.ocrlang:
            File "/usr/local/lib/python2.7/dist-packages/paperwork/backend/config.py", line 152, in __get_ocrlang
              ocr_langs = ocr_tools[0].get_available_languages()
          IndexError: list index out of range
          
          
          • [^] # Re: Paperwork ?

            Posté par (page perso) . Évalué à 2.

            Désolé, je crois que j'ai mal lu la stacktrace et l'exception la 1ère fois. En fait, il s'agirait plutôt du cas où il n'a pas trouvé d'OCR du tout.

            Pour info, pour savoir si Tesseract est disponible, Pyocr cherche simplement la commande "tesseract" dans le PATH.

            À tout hasard, quelle distribution Linux utilises-tu ?

            • [^] # Re: Paperwork ?

              Posté par (page perso) . Évalué à 2.

              Ubuntu, mais du coup j'ai installé le paquet tesseract-ocr et c'est ok j'ai plus l'erreur.

    • [^] # Re: Paperwork ?

      Posté par (page perso) . Évalué à 1. Dernière modification le 22/04/13 à 17:49.

      J'étais motivé, mais sous Arch j'abandonne !

      Trop de dépendances à trouver et avec la conversion python3 --> python2 c'est ardu. Tu n'aurais pas vent par hasard d'un billet quelconque sur une installation sur ArchLinux?

      Ça à l'air top, mais une dizaine de dépendances à choper en upstream j'ai pas le courage.

      • [^] # Re: Paperwork ?

        Posté par (page perso) . Évalué à 1.

        Ah non désolé. Ça fait un moment que je n'ai plus de ArchLinux installée. Si je trouve la motivation et le temps, je vais essayer d'en installer une ce week-end dans une VM. Ça me permettra de compléter le README. (pas de garantie ceci dit)

        • [^] # Re: Paperwork ?

          Posté par (page perso) . Évalué à 1.

          Cela dit j'y suis presque pour l'installation (il doit me manquer une ou deux dépendances), mais ce qui me freine c'est de me dire que je risque d'en chier pour les MAJ si j'adopte paperwork. C'est dommage car ça semble vraiment sympa comme outil et je pense que ce problème de packaging vient en partie du bordel que Python a engendré avec le passage fastidieux à la V3, et non pas de paperwork lui même.

          Juste par curiosité, un passage à Python 3 est prévu ou pas du tout?

  • # bug tracker

    Posté par . Évalué à 9.

    J'ai modifié mon bug tracker perso pour gérer ça. J'ai des projets impots/urssaf/logement/… dans chaque projets des tags tva/2035/… Par exemple je crée une requête "impots 2012", j'y ajoute les divers documents en fichiers joints. Ce qu'il y a de pratique avec le système de bug tracker c'est que je peux indiquer si c'est terminé, en cours etc… et également y ajouter des commentaires si par exemple j'ai des échanges avec les impots "envoi demande de document xyz", "reçu document", "appel pour info" etc…
    Je me suis même payé le luxe d'extraire le texte d'un fichier joint en pdf et de l'indexer en full text avec postgresql.

    Ca ne serait pas très pratique pour gérer des milliers de docs partagés par des dizaines de collaborateurs, mais pour ma tpe, famille et petites assos ça va très bien et ça ne me fait pas utiliser un nouvel outil que celui avec lequel je dev.

  • # Xapian et Omega

    Posté par . Évalué à 6.

    J'ai choisi d'utiliser Xapian et Omega qui sont simples à mettre en place sous Debian. Une fois les documents scannés passés à l'ocr, ils sont indexés et il y a une interface web pour faire des recherches.

    J'ai écrit un tutoriel sur mon blog https://goldy.furry.fr/article4/indexer-ses-documents-personnels-avec-xapian-et-omega

    • [^] # Re: Xapian et Omega

      Posté par . Évalué à 2.

      au passage, pas mal le cubieboard. Merci pour le lien indirect.

      • [^] # Re: Xapian et Omega

        Posté par . Évalué à 1.

        Oui j'aime beaucoup ce petit appareil. J'avais écrit un journal à son propos lors de la phase de crowdfunding, il faudrait que je prenne le temps d'en réécrire un maintenant que j'en possède un.

  • # Malodos

    Posté par (page perso) . Évalué à 4.

    Il y a eu plusieurs journaux, dont le dernier date de juin, qui parlaient d'une solution pour la numérisation de document : Malodos

    « Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche

  • # Médoc

    Posté par (page perso) . Évalué à 2.

    J'avais parlé de mon projet Médoc. J'en suis à plus de 200 documents et 300MB de données.

    De manière générale, numériser et archiver proprement ses documents prend un peu de temps, mais le retour sur investissement est très bon, surtout quand on a pas la place d'avoir un beau range-documents bien classé.

  • # Paperless but sauvegardes full

    Posté par . Évalué à 2.

    J'y ai pensé à plusieurs reprises de faire l'effot que tu fais, mais la seule chose qui me fasse peur c'est la sauvegarde de tout ça.
    Beaucoup de papiers importants ont besoin de traverser les années.

    Quelles sauvegardes fais-tu de tout ça ? Ensuite archives-tu ? Comment ?

    • [^] # Re: Paperless but sauvegardes full

      Posté par (page perso) . Évalué à 3.

      Vu le faible poids des fichiers, pour l'instant je garde tout.

      Et comme sauvegarde j'ai les fichiers dans un disque dur perso au boulot + un chez moi

  • # Validité ?

    Posté par . Évalué à 5.

    Je m'interroge quand même sur un point : La validité des documents scannés.
    Personnellement, je ne garde pas la paperasse pour moi même mais parce que certains documents peuvent être demandés comme justificatifs.
    Dans ce cas que vaut un document scanné ? Il me semble que bien souvent l'administration demande à voir soit les originaux soit des copies certifiées conformes.
    Que ce passe-t-il si on présente un simple scan ?

    • [^] # Re: Validité ?

      Posté par . Évalué à 3.

      Il faut les garder quand même, mais simplement classés par date et bêtement empilés puisqu'on pourra les retrouver facilement avec l'index numérique.

    • [^] # Re: Validité ?

      Posté par . Évalué à 2.

      Les documents à conserver se présentent le plus souvent sous forme papier (quittances de loyer, contrats d'assurance, avis d'imposition, …), mais ils peuvent aussi >vous être envoyés par courrier électronique ou être mis à votre disposition sur un site internet sous forme de documents numérisés (e-documents bancaires, factures de >fournisseur d'accès à internet ou d'énergie, relevé de remboursement de l'assurance maladie, …).

      Ces différents supports (numérique ou papier) ont la même valeur juridique et les mêmes durées de conservation.

      Source: http://vosdroits.service-public.fr/F31215.xhtml

      Pour les délais voir: http://vosdroits.service-public.fr/F19134.xhtml

      • [^] # Re: Validité ?

        Posté par . Évalué à 4. Dernière modification le 22/04/13 à 13:01.

        Pour moi le texte que tu cites ne couvre pas le cas ou la personne fait elle même le scan du document.

        Vu qu'une fois à la sécu on m'a demandé un RIB original (sic !), j'ai bien peur qu'un scan réimprimé (qui correspond donc à une photocopie) soit difficile à faire accepter.

        • [^] # Re: Validité ?

          Posté par . Évalué à 2.

          Suffit d'ouvrir le premier lien :

          Source: http://vosdroits.service-public.fr/F31215.xhtml

          Et hop :

          En revanche, si vous scannez vous-même des documents papier pour les conserver sur votre ordinateur personnel ou sur tout moyen de stockage (clé, disque externe, …), ils n'ont pas la valeur juridique d'un original et ne pourront pas être utilisés dans une action en justice, notamment.

  • # Mayan EDMS et Maarch

    Posté par . Évalué à 0.

    J'ai la même problématique que toi mais je pense opter pour une solution un peu plus lourde.
    Pour ma part, je penche pour l'instant sur:

    Sinon pour la partie ludique:

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.