Journal Paperless...

Posté par olaf le 19 avril 2013 à 18:24. Licence CC By‑SA.

Étiquettes :

avr.

2013

Cher journal,

Plusieurs semaines de congés arrivant, j'aimerai entamer mon projet de numérisation de toute ma paperasse administrative qui me prend une place folle et d'envoyer tous ces bits indigestes vers mon NAS.
Pour la partie numérisation, j'avais pensé au DoxieGo qui me parait pas mal et surtout ne prend pas une place folle.
Mes interrogation viennent de la partie GED, j'avais pensé monter un Alfresco sur une VM mais j'ai peur que cela soit un peu "overkill", qu'en penses-tu ?

# tout se perd ma bonne dame

Posté par ununun le 19 avril 2013 à 18:33. Évalué à 10.

j'en pense que les congés payés, c'est plus ce que c'était.
# Déjà fait

Posté par GG (site web personnel) le 19 avril 2013 à 18:38. Évalué à 3.

J'avais vu passer ici des retour sur la GED.

Cela fait plus d'un an je crois…

Bon courage pour la recherche.

Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html
- [^] # Re: Déjà fait
  
  Posté par BAud (site web personnel) le 19 avril 2013 à 20:44. Évalué à 2.
  
  pour l'ocr en lien avec de la ged, si besoin, il y a quelques références sur http://linuxfr.org/tags/ocr/public (malodos, paperasse…)
# Quelques pistes à creuser

Posté par AP le 19 avril 2013 à 19:00. Évalué à 10.

Pour ma part, cela fait 11 ans que je scanne tous mes documents officiels et administratifs. Je ne garde plus guère d'originaux papiers (si ce n'est mes diplômes et mes bulletins de paie). J'ai accumulé ainsi 2,5Go de documents scannés. À côté des photos de famille et autres bricoles volumineuses glânées sur le net, c'est peanuts. Évidemment, la solution de sauvegarde doit être à la hauteur. Pour le scan, j'ai un vieux scanner Epson dont l'introducteur automatique donne des signes de fatigue. Pour les scans volumineux, les photocopieurs/scanneurs du boulot sont idéaux. Ça scanne recto/verso, rapidement, ça stocke sur clé USB… Pratique… Pour m'y retrouver, ma foi, pas encore d'OCR. Juste un bon nommage des fichiers et des dossiers. En pratique, ça me suffit amplement. Démarrer l'archivage est fastidieux si on veut scanner tout un historique mais une fois ce seuil franchi, si on scanne avec régularité, ça se résume à une ou deux pages de temps en temps et quel bonheur de ne plus avoir des tas de boîtes d'archives bondées qui prennent la poussière.

Voici quelques liens qui pourraient vous intéresser :
- Paperwork, une appli conçue pour gérer des documents scannés (qui fait de l'OCR pour la recherche textuelle) - https://github.com/jflesch/paperwork
- Format PDF/A - http://blog.konradvoelkel.de/2013/03/scan-to-pdfa/
- http://www.generation-linux.fr/index.php?post/2013/04/05/Retour-d-exp%C3%A9rience-apr%C3%A8s-2-ans-d-auto-h%C3%A9bergement
- [^] # Commentaire supprimé
  
  Posté par Anonyme le 22 avril 2013 à 13:30. Évalué à 0.
  
  Ce commentaire a été supprimé par l’équipe de modération.
- [^] # Re: Quelques pistes à creuser
  
  Posté par kursus_hc le 22 avril 2013 à 17:58. Évalué à 7.
  
  Pour m'y retrouver […] juste un bon nommage des fichiers et des dossiers
  
  Han attends mais ça va pas du tout là ! Tu veux dire que tu n'utilises ni tags ni indexation mais un paradigme du siècle dernier, et qu'en plus ça te convient bien ?! Je vais t'envoyer les gars de Google ou de GNOME et tu feras moins ton malin.
# Paperwork ?

Posté par Jérôme Flesch (site web personnel) le 19 avril 2013 à 19:01. Évalué à 10. Dernière modification le 19 avril 2013 à 19:03.

Vu que ça me semble être une réponse potentiellement pertinente à ta question, j'en profite pour me faire un peu de pub.

Je travaille depuis un moment sur un programme appelé Paperwork. C'est un client lourd (Python/Gtk), et pour des questions de performances, je recommande d'avoir les documents en local. Ceci dit, rien n’empêche d'avoir les documents en local et de les rsync périodiquement sur ton NAS (mieux vaut avoir trop de copies de ses documents que pas assez).
- [^] # Re: Paperwork ?
  
  Posté par Sébastien Maccagnoni le 19 avril 2013 à 19:39. Évalué à 3.
  
  Salut,
  
  Je suis à 100% de l'avis de Jérôme !
  
  J'utilise Paperwork depuis pas mal de temps et c'est assez sympa (avec un développeur vachement réactif et compétent ;) )
- [^] # Re: Paperwork ?
  
  Posté par dj_ (site web personnel) le 19 avril 2013 à 20:58. Évalué à 3.
  
  Je suis en train d'essayer et c'est bizarre, on dirait que j'ai des pertes de dossier (celui où je stocke mes scans) quand je l'utilise. Mais je ne vois pas trop a quel moment
  
  Et quand je fait "importer un ou plusieurs fichiers"
  
  Je vois dans le terminal
  Workers: [Progress bar updater: main window progress bar] started
  Workers: [Progress bar updater: main window progress bar] ended
  
  Mais il continue a tourner indéfiniment
  - [^] # Re: Paperwork ?
    
    Posté par Jérôme Flesch (site web personnel) le 19 avril 2013 à 21:19. Évalué à 1.
    
    Pour les pertes de dossiers, c'est plus que bizarre. J'ai du mal à voir ce qui pourrait causer ça dans Paperwork.
    
    Quant à l'import, quand il continue à tourner indéfiniment, généralement, c'est qu'il y a eut une exception Python non-catchée. Es-tu sûr que tu n'as aucune exception dans le terminal ? (éventuellement un peu plus haut que les 2 messages que tu as cité)
    - [^] # Re: Paperwork ?
      
      Posté par dj_ (site web personnel) le 19 avril 2013 à 22:32. Évalué à 3.
      
      Pour les pertes de dossiers, c'est plus que bizarre. J'ai du mal à voir ce qui pourrait causer ça dans Paperwork.
      
      moi aussi, mais mon dossier était là puis a disparu (vive les backup). je vais essayer de le reproduire
      
      J'ai trouvé l'exception
      Worker [Importing file] raised an exception: GInterface.__init__() takes exactly 0 arguments (1 given)
      - [^] # Re: Paperwork ?
        
        Posté par Jérôme Flesch (site web personnel) le 19 avril 2013 à 23:43. Évalué à 2.
        
        Il me faudrait aussi la stacktrace qui devait être juste en-dessous de l'exception s'il-te-plait.
        
        [^] # Re: Paperwork ?
        
        Posté par dj_ (site web personnel) le 20 avril 2013 à 15:21. Évalué à 2.
        
        Action: [Import file(s)] Tried to use UI file ./import.glade but failed: L'ouverture du fichier « ./import.glade » a échoué : Aucun fichier ou dossier de ce type UI file used: src/paperwork/frontend/import.glade Import: file:///home/dj/Documents/scan/taxes/taxes_communales_2012.jpg Worker Importing file: 0 ; False Workers: Queueing [Importing file] Workers: [Importing file] started Importing doc 'file:///home/dj/Documents/scan/taxes/taxes_communales_2012.jpg' Workers: [Importing file] ended Worker [Importing file] raised an exception: GInterface.__init__() takes exactly 0 arguments (1 given) Traceback (most recent call last): File "/home/dj/Fichiers/paperwork/src/paperwork/frontend/workers.py", line 47, in run worker._wrapper(**kwargs) File "/home/dj/Fichiers/paperwork/src/paperwork/frontend/workers.py", line 154, in _wrapper self.__last_ret_value = BasicWorker._wrapper(self, **kwargs) File "/home/dj/Fichiers/paperwork/src/paperwork/frontend/workers.py", line 105, in _wrapper return self.do(**kwargs) File "/home/dj/Fichiers/paperwork/src/paperwork/frontend/mainwindow.py", line 673, in do self.__main_win.doc) File "/home/dj/Fichiers/paperwork/src/paperwork/backend/docimport.py", line 123, in import_doc current_doc.import_image(file_uri, config.ocrlang) File "/home/dj/Fichiers/paperwork/src/paperwork/backend/img/doc.py", line 294, in import_image img_fp = Gio.File(file_uri).read() TypeError: GInterface.__init__() takes exactly 0 arguments (1 given) Workers: [Progress bar updater: main window progress bar] started
        
        [^] # Re: Paperwork ?
        
        Posté par Jérôme Flesch (site web personnel) le 20 avril 2013 à 19:31. Évalué à 2.
        
        Hm. J'ai pushé un fix temporaire sur Paperwork, mais il faudra que j'examine ça plus en détails dès que j'ai du temps. Il semblerait que j'ai cassé l'import d'image. Je ne vois juste pas comment j'ai pu rater ça, et il faudra que je vois comment faire un fix propre.
        
        [^] # Re: Paperwork ?
        
        Posté par dj_ (site web personnel) le 21 avril 2013 à 20:05. Évalué à 3.
        
        ça marche, merci
        
        sinon dans les détails : l'icone de l'appli était manquante (trouvé dans data). Et l'OCR s'amuse a essayer de reconnaître les documents dans les 4 orientations, ce qui peut prendre du temps. ça peut être bien de mettre un option pour qu'on puisse le faire juste dans le sens normal
- [^] # Re: Paperwork ?
  
  Posté par fredix le 20 avril 2013 à 14:31. Évalué à 3.
  J'ai essayé de l'installer en suivant la doc mais j'ai plein d'erreurs quand je veux ouvrir la fenetre des préférences :
```
Action: [Open settings dialog]
Tried to use UI file ./settingswindow.glade but failed: L'ouverture du fichier « ./settingswindow.glade » a échoué : Aucun fichier ou dossier de ce type
Tried to use UI file src/paperwork/frontend/settingswindow.glade but failed: L'ouverture du fichier « src/paperwork/frontend/settingswindow.glade » a échoué : Aucun fichier ou dossier de ce type
UI file used: /usr/local/share/paperwork/settingswindow.glade
Traceback (most recent call last):
  File "/usr/local/lib/python2.7/dist-packages/paperwork/frontend/actions.py", line 51, in on_button_clicked_cb
    return self.__do()
  File "/usr/local/lib/python2.7/dist-packages/paperwork/frontend/actions.py", line 48, in __do
    return self.do(**kwargs)
  File "/usr/local/lib/python2.7/dist-packages/paperwork/frontend/mainwindow.py", line 1094, in do
    sw = SettingsWindow(self.__main_win.window, self.__config)
  File "/usr/local/lib/python2.7/dist-packages/paperwork/frontend/settingswindow.py", line 484, in __init__
    self.display_config(config)
  File "/usr/local/lib/python2.7/dist-packages/paperwork/frontend/settingswindow.py", line 616, in display_config
    if short_lang == config.ocrlang:
  File "/usr/local/lib/python2.7/dist-packages/paperwork/backend/config.py", line 152, in __get_ocrlang
    ocr_langs = ocr_tools[0].get_available_languages()
IndexError: list index out of range
```
  - [^] # Re: Paperwork ?
    
    Posté par Jérôme Flesch (site web personnel) le 20 avril 2013 à 19:17. Évalué à 1.
    
    Tesseract et Cuneiform ont besoin de fichiers de data pour chaque langue avec lesquelles tu souhaite travailler.
    Là l'exception indique qu'aucun fichier de data n'a été trouvé.
    
    Si tu utilises Ubuntu ou Debian: sudo apt-get install tesseract-ocr-fra .
    
    Je viens de voir que doc dans le README était tronquée sur ce point (une erreur de ma part dans le markdown). C'est corrigé.
    - [^] # Re: Paperwork ?
      
      Posté par fredix le 20 avril 2013 à 20:30. Évalué à 2.
      Installé mais pas mieux
      
      Traceback (most recent call last): File "/usr/local/lib/python2.7/dist-packages/paperwork/frontend/actions.py", line 51, in on_button_clicked_cb return self.__do() File "/usr/local/lib/python2.7/dist-packages/paperwork/frontend/actions.py", line 48, in __do return self.do(**kwargs) File "/usr/local/lib/python2.7/dist-packages/paperwork/frontend/mainwindow.py", line 1094, in do sw = SettingsWindow(self.__main_win.window, self.__config) File "/usr/local/lib/python2.7/dist-packages/paperwork/frontend/settingswindow.py", line 484, in __init__ self.display_config(config) File "/usr/local/lib/python2.7/dist-packages/paperwork/frontend/settingswindow.py", line 616, in display_config if short_lang == config.ocrlang: File "/usr/local/lib/python2.7/dist-packages/paperwork/backend/config.py", line 152, in __get_ocrlang ocr_langs = ocr_tools[0].get_available_languages() IndexError: list index out of range
      - [^] # Re: Paperwork ?
        
        Posté par Jérôme Flesch (site web personnel) le 20 avril 2013 à 22:37. Évalué à 2.
        
        Désolé, je crois que j'ai mal lu la stacktrace et l'exception la 1ère fois. En fait, il s'agirait plutôt du cas où il n'a pas trouvé d'OCR du tout.
        
        Pour info, pour savoir si Tesseract est disponible, Pyocr cherche simplement la commande "tesseract" dans le PATH.
        
        À tout hasard, quelle distribution Linux utilises-tu ?
        
        [^] # Re: Paperwork ?
        
        Posté par fredix le 21 avril 2013 à 00:15. Évalué à 2.
        
        Ubuntu, mais du coup j'ai installé le paquet tesseract-ocr et c'est ok j'ai plus l'erreur.
- [^] # Re: Paperwork ?
  
  Posté par vlamy le 22 avril 2013 à 17:49. Évalué à 1. Dernière modification le 22 avril 2013 à 17:49.
  
  J'étais motivé, mais sous Arch j'abandonne !
  
  Trop de dépendances à trouver et avec la conversion python3 --> python2 c'est ardu. Tu n'aurais pas vent par hasard d'un billet quelconque sur une installation sur ArchLinux?
  
  Ça à l'air top, mais une dizaine de dépendances à choper en upstream j'ai pas le courage.
  - [^] # Re: Paperwork ?
    
    Posté par Jérôme Flesch (site web personnel) le 23 avril 2013 à 21:45. Évalué à 1.
    
    Ah non désolé. Ça fait un moment que je n'ai plus de ArchLinux installée. Si je trouve la motivation et le temps, je vais essayer d'en installer une ce week-end dans une VM. Ça me permettra de compléter le README. (pas de garantie ceci dit)
    - [^] # Re: Paperwork ?
      
      Posté par vlamy le 24 avril 2013 à 09:46. Évalué à 1.
      
      Cela dit j'y suis presque pour l'installation (il doit me manquer une ou deux dépendances), mais ce qui me freine c'est de me dire que je risque d'en chier pour les MAJ si j'adopte paperwork. C'est dommage car ça semble vraiment sympa comme outil et je pense que ce problème de packaging vient en partie du bordel que Python a engendré avec le passage fastidieux à la V3, et non pas de paperwork lui même.
      
      Juste par curiosité, un passage à Python 3 est prévu ou pas du tout?
      - [^] # Re: Paperwork ?
        
        Posté par Jérôme Flesch (site web personnel) le 27 avril 2013 à 21:30. Évalué à 2.
        
        Oui, un passage à Python 3 est prévu. Ce sera fait dès que toutes les dépendances de Paperwork seront disponibles pour Python 3.
        
        [^] # Re: Paperwork ?
        
        Posté par vlamy le 29 avril 2013 à 10:08. Évalué à 1.
        
        Ok j'attendrai ce moment alors :)
        Merci pour la réponse.
# bug tracker

Posté par wilk le 19 avril 2013 à 19:03. Évalué à 9.

J'ai modifié mon bug tracker perso pour gérer ça. J'ai des projets impots/urssaf/logement/… dans chaque projets des tags tva/2035/… Par exemple je crée une requête "impots 2012", j'y ajoute les divers documents en fichiers joints. Ce qu'il y a de pratique avec le système de bug tracker c'est que je peux indiquer si c'est terminé, en cours etc… et également y ajouter des commentaires si par exemple j'ai des échanges avec les impots "envoi demande de document xyz", "reçu document", "appel pour info" etc…
Je me suis même payé le luxe d'extraire le texte d'un fichier joint en pdf et de l'indexer en full text avec postgresql.

Ca ne serait pas très pratique pour gérer des milliers de docs partagés par des dizaines de collaborateurs, mais pour ma tpe, famille et petites assos ça va très bien et ça ne me fait pas utiliser un nouvel outil que celui avec lequel je dev.
# Xapian et Omega

Posté par Anonyme le 19 avril 2013 à 19:44. Évalué à 6.

J'ai choisi d'utiliser Xapian et Omega qui sont simples à mettre en place sous Debian. Une fois les documents scannés passés à l'ocr, ils sont indexés et il y a une interface web pour faire des recherches.

J'ai écrit un tutoriel sur mon blog https://goldy.furry.fr/article4/indexer-ses-documents-personnels-avec-xapian-et-omega
- [^] # Re: Xapian et Omega
  
  Posté par Marc Quinton le 21 avril 2013 à 17:59. Évalué à 2.
  
  au passage, pas mal le cubieboard. Merci pour le lien indirect.
  - [^] # Re: Xapian et Omega
    
    Posté par Anonyme le 22 avril 2013 à 08:02. Évalué à 1.
    
    Oui j'aime beaucoup ce petit appareil. J'avais écrit un journal à son propos lors de la phase de crowdfunding, il faudrait que je prenne le temps d'en réécrire un maintenant que j'en possède un.
# Malodos

Posté par claudex le 19 avril 2013 à 21:12. Évalué à 4.

Il y a eu plusieurs journaux, dont le dernier date de juin, qui parlaient d'une solution pour la numérisation de document : Malodos

« Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche
# Médoc

Posté par small_duck (site web personnel) le 19 avril 2013 à 23:20. Évalué à 2.

J'avais parlé de mon projet Médoc. J'en suis à plus de 200 documents et 300MB de données.

De manière générale, numériser et archiver proprement ses documents prend un peu de temps, mais le retour sur investissement est très bon, surtout quand on a pas la place d'avoir un beau range-documents bien classé.
# Paperless but sauvegardes full

Posté par gUI (Mastodon) le 21 avril 2013 à 17:37. Évalué à 2.

J'y ai pensé à plusieurs reprises de faire l'effot que tu fais, mais la seule chose qui me fasse peur c'est la sauvegarde de tout ça.
Beaucoup de papiers importants ont besoin de traverser les années.

Quelles sauvegardes fais-tu de tout ça ? Ensuite archives-tu ? Comment ?

En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.
- [^] # Re: Paperless but sauvegardes full
  
  Posté par dj_ (site web personnel) le 21 avril 2013 à 19:27. Évalué à 3.
  
  Vu le faible poids des fichiers, pour l'instant je garde tout.
  
  Et comme sauvegarde j'ai les fichiers dans un disque dur perso au boulot + un chez moi
# Validité ?

Posté par Croconux le 22 avril 2013 à 09:35. Évalué à 5.

Je m'interroge quand même sur un point : La validité des documents scannés.
Personnellement, je ne garde pas la paperasse pour moi même mais parce que certains documents peuvent être demandés comme justificatifs.
Dans ce cas que vaut un document scanné ? Il me semble que bien souvent l'administration demande à voir soit les originaux soit des copies certifiées conformes.
Que ce passe-t-il si on présente un simple scan ?
- [^] # Re: Validité ?
  
  Posté par wilk le 22 avril 2013 à 10:11. Évalué à 3.
  
  Il faut les garder quand même, mais simplement classés par date et bêtement empilés puisqu'on pourra les retrouver facilement avec l'index numérique.
- [^] # Re: Validité ?
  
  Posté par Julien L. le 22 avril 2013 à 10:58. Évalué à 2.
  
  Les documents à conserver se présentent le plus souvent sous forme papier (quittances de loyer, contrats d'assurance, avis d'imposition, …), mais ils peuvent aussi >vous être envoyés par courrier électronique ou être mis à votre disposition sur un site internet sous forme de documents numérisés (e-documents bancaires, factures de >fournisseur d'accès à internet ou d'énergie, relevé de remboursement de l'assurance maladie, …).
  
  Ces différents supports (numérique ou papier) ont la même valeur juridique et les mêmes durées de conservation.
  
  Source: http://vosdroits.service-public.fr/F31215.xhtml
  
  Pour les délais voir: http://vosdroits.service-public.fr/F19134.xhtml
  - [^] # Re: Validité ?
    
    Posté par Strash le 22 avril 2013 à 12:58. Évalué à 4. Dernière modification le 22 avril 2013 à 13:01.
    
    Pour moi le texte que tu cites ne couvre pas le cas ou la personne fait elle même le scan du document.
    
    Vu qu'une fois à la sécu on m'a demandé un RIB original (sic !), j'ai bien peur qu'un scan réimprimé (qui correspond donc à une photocopie) soit difficile à faire accepter.
    - [^] # Re: Validité ?
      
      Posté par djabal le 24 avril 2013 à 15:02. Évalué à 2.
      
      Suffit d'ouvrir le premier lien :
      
      Source: http://vosdroits.service-public.fr/F31215.xhtml
      
      Et hop :
      
      En revanche, si vous scannez vous-même des documents papier pour les conserver sur votre ordinateur personnel ou sur tout moyen de stockage (clé, disque externe, …), ils n'ont pas la valeur juridique d'un original et ne pourront pas être utilisés dans une action en justice, notamment.
# Mayan EDMS et Maarch

Posté par Vroum le 27 juin 2013 à 13:20. Évalué à 0.
J'ai la même problématique que toi mais je pense opter pour une solution un peu plus lourde.
Pour ma part, je penche pour l'instant sur:
- http://www.mayan-edms.com/
- http://www.maarch.org/
Sinon pour la partie ludique:
- http://eduardoluis.com/raspberry-pi-and-usb-network-scanner/

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.