Journal Paperwork : Besoin de testeurs

Posté par Jérôme Flesch (site web personnel) le 05 mai 2013 à 19:38. Licence CC By‑SA.

Étiquettes :

mai

2013

Ce journal a été promu en dépêche : Paperwork : besoin de testeurs.

Paperwork est un outil pour faciliter la gestion de la paperasse de tout les jours.

Il a été conçu pour les flemmards désorganisés comme moi, dans une optique de "scan&forget" : vous devriez pouvoir juste scanner un document, l'enterrer dans une pile de papiers quelconque, et quand même le retrouver le jour où vous en avez besoin. Après tout, trier est un travail de machine.

À chaque scan, Paperwork se charge de passer un coup d'OCR sur le document et de l'indexer. Comme l'OCR est imparfaite, il est aussi possible de mettre des labels sur le document.

Aujourd'hui, la dernière fonctionnalité voulue pour Paperwork 0.1 a été implémentée. Maintenant, avant de faire une première release, il reste à tester tout ça. C'est là que j'ai besoin de votre aide : je cherche des testeurs.

Pour devenir testeur, il faut les choses suivantes:

Une distribution GNU/Linux
Un scanner compatible Sane
Savoir remplir un rapport de bug
Du temps à tuer

Attention, la branche Git à tester est la branche "testing" (branche par défaut). La branche "unstable" est celle où je vais commencer le développement de la 0.2.

Pour mettre l'eau à la bouche de ceux qui ne l'aurait pas déjà testé, voici une jolie capture d'écran pas-complètement-à-jour:

Paperwork en action

Merci beaucoup à ceux qui l'ont déjà testé, et merci d'avance à ceux qui vont le faire,

# A tester

Posté par Xaapyks le 05 mai 2013 à 19:56. Évalué à 5.

Ça a l'air sympathique, je vais essayer de tester ça rapidement !

Par contre, tu ne devrais peut-être pas afficher ton adresse postale dans tes copies d'écran (sur github)…
- [^] # Re: A tester
  
  Posté par Jérôme Flesch (site web personnel) le 05 mai 2013 à 20:03. Évalué à 1.
  
  En l’occurrence l'adresse en question est obsolète. Mais tu as raison, mieux vaut être trop prudent que pas assez. C'est rectifié.
# Comment ca marche ?

Posté par mackwic le 05 mai 2013 à 20:15. Évalué à 5.

Je suis très curieux de savoir comment tu sélectionne les mots clefs de tes documents ?

Et coté OCR, petite pub assumée pour notre labo, mais as-tu considéré Scribo ? ( http://www.lrde.epita.fr/cgi-bin/twiki/view/Olena/Modules#SCRIBO )
Ils ont battu Tesseract à un concours récent, mais c'est en C++, du coup je ne sais pas comment tu peux interagir avec leurs modules.

En tout cas beau travail ! J'installe de suite ! :)
- [^] # Re: Comment ca marche ?
  
  Posté par Jérôme Flesch (site web personnel) le 05 mai 2013 à 20:28. Évalué à 2.
  
  Je ne les sélectionne pas :)
  En fait je passe le texte tel-quel à Whoosh. C'est lui qui se charge de l'indexation, de la recherche et des suggestions.
  
  Pour Scribo, je ne connaissais pas. Je vais voir pour l'intégrer à PyOCR. Pour ce qui est de l'interaction, actuellement, c'est fait de façon relativement crade: Paperwork (via PyOCR) exécute tout simplement Tesseract comme commande shell. Je suppose que Scribo peut aussi être lancé depuis le shell, donc je ne devrais pas avoir de soucis pour l'intégrer.
  
  En fait, Tesseract fournit aussi une librairie C++, mais du coup ce n'est pas simple à binder sur du Python (du moins sans rajouter une autre dépendance), et je n'ai trouvé aucune documentation expliquant comment l'utiliser. Donc j'ai juste laissé tombé (pour le moment)
- [^] # Re: Comment ca marche ?
  
  Posté par marmottus le 05 mai 2013 à 23:05. Évalué à 2.
  
  Euh SCRIBO c'est vraiment de la "dématérialisation" de documents: reconnaissance des images, des tableaux, des gros titres, … et après ils passent tesseract sur les zones détectées, du coup c'est peut-être overkill mais c'est une bibliothèque géniale sinon.
  
  J'ai bossé un tout petit peu dessus en 2010, ça a changé depuis?
  
  Whoop! Whoop! Whoop!
  - [^] # Re: Comment ca marche ?
    
    Posté par mackwic le 06 mai 2013 à 09:36. Évalué à 4.
    
    De ce que j'ai compris, les récents travaux de M. Fabrizio permettent de se passer de tesseract. Et le résultat serait très bon.
    Les modules de scribo servent en ce moment à de la reconnaissance d'enseignes le long de routes Parisiennes. Sur des photos. Il était assez fier. :)
# Et sans scan connecté ?

Posté par Guillaume Rossignol le 05 mai 2013 à 20:29. Évalué à 8.

Bonjour,

Comme je suis vachement interessé par l'application (j'ai une gestion un peu chaotique de ma paperasse) j'aimerai la tester et à terme l'utiliser. Sauf que pour le moment, je n'ai pas de scanner perso donc j'ai pris l'habitude de tout scanner sur le mopieur du boulot (c'est pratique, rapide, et ca tue le temps entre midi et deux ^{^).}

Du coup, avant d'installer, la question est : "est-il envisagé à un moment de pouvoir se passer de scanner et de réaliser des imports complets de dossier ?"

Bonne continuation.
- [^] # Re: Et sans scan connecté ?
  
  Posté par Jérôme Flesch (site web personnel) le 05 mai 2013 à 21:03. Évalué à 2.
  
  Actuellement il est déjà possible d'importer des images et des PDFs dans Paperwork.
  
  Par contre l'import d'un dossier d'images complet est plus compliqué, vu que chaque personne aura sa propre façon d'organiser le-dit dossier à importer. J'ai quelques idées sur comment importer ce qui sera vraisemblablement les organisations les plus courantes, mais ce n'est pas prévu pour la 0.1.
  
  En attendant, pour ceux qui savent scripter, c'est un problème qui peut se résoudre à grand coup de scripts shell. J'ai inclus les informations nécessaire dans la doc de hacking pour ceux que ça intéresse. En fait il suffit d'arranger et nommer les fichiers dans le répertoire de travail de la même façon que Paperwork.
  - [^] # Re: Et sans scan connecté ?
    
    Posté par Guillaume Rossignol le 05 mai 2013 à 21:27. Évalué à 3.
    
    Du coup, j'ai une vague idée de ce à quoi va servir mon week-end de 5 jours :D.
    
    Pour la parenthèse et le cas particulier du mopieur, l'idée est de pouvoir tout mettre méchamment dans un dossier avec le nom par défaut qui est donné (souvent un truc basé sur la date et des numéros sorti de dieu sait où) et que paperwork copie les données dans le répertoire qui va bien avec la couche qui va bien. Cela dit, le journal linuxfr n'est pas le bon endroit pour faire des propositions, et ce n'est pas non plus ce qui etait demandé dans le journal.
  - [^] # Re: Et sans scan connecté ?
    
    Posté par jigso le 06 mai 2013 à 09:38. Évalué à 3.
    
    J'ai un peu le même soucis : mon scanner est une imprimante réseau, et fait scanner mais envoie les fichiers par email (ou sur une clef usb).
    Je viens de regarder rapidement la doc de hacking, a priori c'est tout bon : je peux me créer un email dédié, et via procmail lancer l'extraction de la pièce jointe et l'OCR. En respectant la nomenclature, l'indexation se fera. J'ai bon ?
    - [^] # Re: Et sans scan connecté ?
      
      Posté par Jérôme Flesch (site web personnel) le 06 mai 2013 à 10:16. Évalué à 2.
      
      Tout à fait :)
# Journal transformé en dépêche

Posté par Nÿco (site web personnel) le 05 mai 2013 à 21:05. Évalué à 7.

Si vous voulez rajouter quoi que ce soit :
https://linuxfr.org/moderation/news/paperwork-besoin-de-testeurs