Cher journal,
Plusieurs semaines de congés arrivant, j'aimerai entamer mon projet de numérisation de toute ma paperasse administrative qui me prend une place folle et d'envoyer tous ces bits indigestes vers mon NAS.
Pour la partie numérisation, j'avais pensé au DoxieGo qui me parait pas mal et surtout ne prend pas une place folle.
Mes interrogation viennent de la partie GED, j'avais pensé monter un Alfresco sur une VM mais j'ai peur que cela soit un peu "overkill", qu'en penses-tu ?
# tout se perd ma bonne dame
Posté par ununun . Évalué à 10.
j'en pense que les congés payés, c'est plus ce que c'était.
# Déjà fait
Posté par GG (site web personnel) . Évalué à 3.
J'avais vu passer ici des retour sur la GED.
Cela fait plus d'un an je crois…
Bon courage pour la recherche.
Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html
[^] # Re: Déjà fait
Posté par BAud (site web personnel) . Évalué à 2.
pour l'ocr en lien avec de la ged, si besoin, il y a quelques références sur http://linuxfr.org/tags/ocr/public (malodos, paperasse…)
# Quelques pistes à creuser
Posté par AP . Évalué à 10.
Pour ma part, cela fait 11 ans que je scanne tous mes documents officiels et administratifs. Je ne garde plus guère d'originaux papiers (si ce n'est mes diplômes et mes bulletins de paie). J'ai accumulé ainsi 2,5Go de documents scannés. À côté des photos de famille et autres bricoles volumineuses glânées sur le net, c'est peanuts. Évidemment, la solution de sauvegarde doit être à la hauteur. Pour le scan, j'ai un vieux scanner Epson dont l'introducteur automatique donne des signes de fatigue. Pour les scans volumineux, les photocopieurs/scanneurs du boulot sont idéaux. Ça scanne recto/verso, rapidement, ça stocke sur clé USB… Pratique… Pour m'y retrouver, ma foi, pas encore d'OCR. Juste un bon nommage des fichiers et des dossiers. En pratique, ça me suffit amplement. Démarrer l'archivage est fastidieux si on veut scanner tout un historique mais une fois ce seuil franchi, si on scanne avec régularité, ça se résume à une ou deux pages de temps en temps et quel bonheur de ne plus avoir des tas de boîtes d'archives bondées qui prennent la poussière.
Voici quelques liens qui pourraient vous intéresser :
- Paperwork, une appli conçue pour gérer des documents scannés (qui fait de l'OCR pour la recherche textuelle) - https://github.com/jflesch/paperwork
- Format PDF/A - http://blog.konradvoelkel.de/2013/03/scan-to-pdfa/
- http://www.generation-linux.fr/index.php?post/2013/04/05/Retour-d-exp%C3%A9rience-apr%C3%A8s-2-ans-d-auto-h%C3%A9bergement
[^] # Commentaire supprimé
Posté par Anonyme . Évalué à 0.
Ce commentaire a été supprimé par l’équipe de modération.
[^] # Re: Quelques pistes à creuser
Posté par kursus_hc . Évalué à 7.
Han attends mais ça va pas du tout là ! Tu veux dire que tu n'utilises ni tags ni indexation mais un paradigme du siècle dernier, et qu'en plus ça te convient bien ?! Je vais t'envoyer les gars de Google ou de GNOME et tu feras moins ton malin.
# Paperwork ?
Posté par Jérôme Flesch (site web personnel) . Évalué à 10. Dernière modification le 19 avril 2013 à 19:03.
Vu que ça me semble être une réponse potentiellement pertinente à ta question, j'en profite pour me faire un peu de pub.
Je travaille depuis un moment sur un programme appelé Paperwork. C'est un client lourd (Python/Gtk), et pour des questions de performances, je recommande d'avoir les documents en local. Ceci dit, rien n’empêche d'avoir les documents en local et de les rsync périodiquement sur ton NAS (mieux vaut avoir trop de copies de ses documents que pas assez).
[^] # Re: Paperwork ?
Posté par Sébastien Maccagnoni (site web personnel) . Évalué à 3.
Salut,
Je suis à 100% de l'avis de Jérôme !
J'utilise Paperwork depuis pas mal de temps et c'est assez sympa (avec un développeur vachement réactif et compétent ;) )
[^] # Re: Paperwork ?
Posté par dj_ (site web personnel) . Évalué à 3.
Je suis en train d'essayer et c'est bizarre, on dirait que j'ai des pertes de dossier (celui où je stocke mes scans) quand je l'utilise. Mais je ne vois pas trop a quel moment
Et quand je fait "importer un ou plusieurs fichiers"
Je vois dans le terminal
Workers: [Progress bar updater: main window progress bar] started
Workers: [Progress bar updater: main window progress bar] ended
Mais il continue a tourner indéfiniment
[^] # Re: Paperwork ?
Posté par Jérôme Flesch (site web personnel) . Évalué à 1.
Pour les pertes de dossiers, c'est plus que bizarre. J'ai du mal à voir ce qui pourrait causer ça dans Paperwork.
Quant à l'import, quand il continue à tourner indéfiniment, généralement, c'est qu'il y a eut une exception Python non-catchée. Es-tu sûr que tu n'as aucune exception dans le terminal ? (éventuellement un peu plus haut que les 2 messages que tu as cité)
[^] # Re: Paperwork ?
Posté par dj_ (site web personnel) . Évalué à 3.
moi aussi, mais mon dossier était là puis a disparu (vive les backup). je vais essayer de le reproduire
J'ai trouvé l'exception
Worker [Importing file] raised an exception: GInterface.__init__() takes exactly 0 arguments (1 given)
[^] # Re: Paperwork ?
Posté par Jérôme Flesch (site web personnel) . Évalué à 2.
Il me faudrait aussi la stacktrace qui devait être juste en-dessous de l'exception s'il-te-plait.
[^] # Re: Paperwork ?
Posté par dj_ (site web personnel) . Évalué à 2.
[^] # Re: Paperwork ?
Posté par Jérôme Flesch (site web personnel) . Évalué à 2.
Hm. J'ai pushé un fix temporaire sur Paperwork, mais il faudra que j'examine ça plus en détails dès que j'ai du temps. Il semblerait que j'ai cassé l'import d'image. Je ne vois juste pas comment j'ai pu rater ça, et il faudra que je vois comment faire un fix propre.
[^] # Re: Paperwork ?
Posté par dj_ (site web personnel) . Évalué à 3.
ça marche, merci
sinon dans les détails : l'icone de l'appli était manquante (trouvé dans data). Et l'OCR s'amuse a essayer de reconnaître les documents dans les 4 orientations, ce qui peut prendre du temps. ça peut être bien de mettre un option pour qu'on puisse le faire juste dans le sens normal
[^] # Re: Paperwork ?
Posté par fredix . Évalué à 3.
J'ai essayé de l'installer en suivant la doc mais j'ai plein d'erreurs quand je veux ouvrir la fenetre des préférences :
[^] # Re: Paperwork ?
Posté par Jérôme Flesch (site web personnel) . Évalué à 1.
Tesseract et Cuneiform ont besoin de fichiers de data pour chaque langue avec lesquelles tu souhaite travailler.
Là l'exception indique qu'aucun fichier de data n'a été trouvé.
Si tu utilises Ubuntu ou Debian: sudo apt-get install tesseract-ocr-fra .
Je viens de voir que doc dans le README était tronquée sur ce point (une erreur de ma part dans le markdown). C'est corrigé.
[^] # Re: Paperwork ?
Posté par fredix . Évalué à 2.
Installé mais pas mieux
[^] # Re: Paperwork ?
Posté par Jérôme Flesch (site web personnel) . Évalué à 2.
Désolé, je crois que j'ai mal lu la stacktrace et l'exception la 1ère fois. En fait, il s'agirait plutôt du cas où il n'a pas trouvé d'OCR du tout.
Pour info, pour savoir si Tesseract est disponible, Pyocr cherche simplement la commande "tesseract" dans le PATH.
À tout hasard, quelle distribution Linux utilises-tu ?
[^] # Re: Paperwork ?
Posté par fredix . Évalué à 2.
Ubuntu, mais du coup j'ai installé le paquet tesseract-ocr et c'est ok j'ai plus l'erreur.
[^] # Re: Paperwork ?
Posté par vlamy (site web personnel) . Évalué à 1. Dernière modification le 22 avril 2013 à 17:49.
J'étais motivé, mais sous Arch j'abandonne !
Trop de dépendances à trouver et avec la conversion python3 --> python2 c'est ardu. Tu n'aurais pas vent par hasard d'un billet quelconque sur une installation sur ArchLinux?
Ça à l'air top, mais une dizaine de dépendances à choper en upstream j'ai pas le courage.
[^] # Re: Paperwork ?
Posté par Jérôme Flesch (site web personnel) . Évalué à 1.
Ah non désolé. Ça fait un moment que je n'ai plus de ArchLinux installée. Si je trouve la motivation et le temps, je vais essayer d'en installer une ce week-end dans une VM. Ça me permettra de compléter le README. (pas de garantie ceci dit)
[^] # Re: Paperwork ?
Posté par vlamy (site web personnel) . Évalué à 1.
Cela dit j'y suis presque pour l'installation (il doit me manquer une ou deux dépendances), mais ce qui me freine c'est de me dire que je risque d'en chier pour les MAJ si j'adopte paperwork. C'est dommage car ça semble vraiment sympa comme outil et je pense que ce problème de packaging vient en partie du bordel que Python a engendré avec le passage fastidieux à la V3, et non pas de paperwork lui même.
Juste par curiosité, un passage à Python 3 est prévu ou pas du tout?
[^] # Re: Paperwork ?
Posté par Jérôme Flesch (site web personnel) . Évalué à 2.
Oui, un passage à Python 3 est prévu. Ce sera fait dès que toutes les dépendances de Paperwork seront disponibles pour Python 3.
[^] # Re: Paperwork ?
Posté par vlamy (site web personnel) . Évalué à 1.
Ok j'attendrai ce moment alors :)
Merci pour la réponse.
# bug tracker
Posté par wilk . Évalué à 9.
J'ai modifié mon bug tracker perso pour gérer ça. J'ai des projets impots/urssaf/logement/… dans chaque projets des tags tva/2035/… Par exemple je crée une requête "impots 2012", j'y ajoute les divers documents en fichiers joints. Ce qu'il y a de pratique avec le système de bug tracker c'est que je peux indiquer si c'est terminé, en cours etc… et également y ajouter des commentaires si par exemple j'ai des échanges avec les impots "envoi demande de document xyz", "reçu document", "appel pour info" etc…
Je me suis même payé le luxe d'extraire le texte d'un fichier joint en pdf et de l'indexer en full text avec postgresql.
Ca ne serait pas très pratique pour gérer des milliers de docs partagés par des dizaines de collaborateurs, mais pour ma tpe, famille et petites assos ça va très bien et ça ne me fait pas utiliser un nouvel outil que celui avec lequel je dev.
# Xapian et Omega
Posté par Anonyme . Évalué à 6.
J'ai choisi d'utiliser Xapian et Omega qui sont simples à mettre en place sous Debian. Une fois les documents scannés passés à l'ocr, ils sont indexés et il y a une interface web pour faire des recherches.
J'ai écrit un tutoriel sur mon blog https://goldy.furry.fr/article4/indexer-ses-documents-personnels-avec-xapian-et-omega
[^] # Re: Xapian et Omega
Posté par Marc Quinton . Évalué à 2.
au passage, pas mal le cubieboard. Merci pour le lien indirect.
[^] # Re: Xapian et Omega
Posté par Anonyme . Évalué à 1.
Oui j'aime beaucoup ce petit appareil. J'avais écrit un journal à son propos lors de la phase de crowdfunding, il faudrait que je prenne le temps d'en réécrire un maintenant que j'en possède un.
# Malodos
Posté par claudex . Évalué à 4.
Il y a eu plusieurs journaux, dont le dernier date de juin, qui parlaient d'une solution pour la numérisation de document : Malodos
« Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche
# Médoc
Posté par small_duck (site web personnel) . Évalué à 2.
J'avais parlé de mon projet Médoc. J'en suis à plus de 200 documents et 300MB de données.
De manière générale, numériser et archiver proprement ses documents prend un peu de temps, mais le retour sur investissement est très bon, surtout quand on a pas la place d'avoir un beau range-documents bien classé.
# Paperless but sauvegardes full
Posté par gUI (Mastodon) . Évalué à 2.
J'y ai pensé à plusieurs reprises de faire l'effot que tu fais, mais la seule chose qui me fasse peur c'est la sauvegarde de tout ça.
Beaucoup de papiers importants ont besoin de traverser les années.
Quelles sauvegardes fais-tu de tout ça ? Ensuite archives-tu ? Comment ?
En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.
[^] # Re: Paperless but sauvegardes full
Posté par dj_ (site web personnel) . Évalué à 3.
Vu le faible poids des fichiers, pour l'instant je garde tout.
Et comme sauvegarde j'ai les fichiers dans un disque dur perso au boulot + un chez moi
# Validité ?
Posté par Croconux . Évalué à 5.
Je m'interroge quand même sur un point : La validité des documents scannés.
Personnellement, je ne garde pas la paperasse pour moi même mais parce que certains documents peuvent être demandés comme justificatifs.
Dans ce cas que vaut un document scanné ? Il me semble que bien souvent l'administration demande à voir soit les originaux soit des copies certifiées conformes.
Que ce passe-t-il si on présente un simple scan ?
[^] # Re: Validité ?
Posté par wilk . Évalué à 3.
Il faut les garder quand même, mais simplement classés par date et bêtement empilés puisqu'on pourra les retrouver facilement avec l'index numérique.
[^] # Re: Validité ?
Posté par Julien L. . Évalué à 2.
Source: http://vosdroits.service-public.fr/F31215.xhtml
Pour les délais voir: http://vosdroits.service-public.fr/F19134.xhtml
[^] # Re: Validité ?
Posté par Strash . Évalué à 4. Dernière modification le 22 avril 2013 à 13:01.
Pour moi le texte que tu cites ne couvre pas le cas ou la personne fait elle même le scan du document.
Vu qu'une fois à la sécu on m'a demandé un RIB original (sic !), j'ai bien peur qu'un scan réimprimé (qui correspond donc à une photocopie) soit difficile à faire accepter.
[^] # Re: Validité ?
Posté par djabal . Évalué à 2.
Suffit d'ouvrir le premier lien :
Et hop :
# Mayan EDMS et Maarch
Posté par Vroum . Évalué à 0.
J'ai la même problématique que toi mais je pense opter pour une solution un peu plus lourde.
Pour ma part, je penche pour l'instant sur:
Sinon pour la partie ludique:
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.