Sortie de Paperwork 0.2

Posté par Jérôme Flesch (site web personnel) le 22 septembre 2014 à 02:05. Édité par Benoît Sibaud, ZeroHeure, NeoX et Nÿco. Modéré par Pierre Jarillon. Licence CC By‑SA.

Étiquettes :

sept.

2014

Paperwork est l'outil idéal pour les flemmards qui veulent numériser tous leurs documents papiers. Il s'agit d'une interface graphique conçue avec une idée en tête : "scan&forget" (« numériser et puis voilà fini »). Lire, trier et indexer les papiers est un travail de machine, pas d'humain.

Un peu plus d'un an après Paperwork 0.1, voici Paperwork 0.2. Cette nouvelle version apporte essentiellement des améliorations de l'interface graphique, ainsi que de l'ajout d'une fonctionnalité appelée "prédiction des labels" (histoire de pouvoir être encore plus flemmard lorsqu'on numérise ses documents).

Le screenshout-qui-va-bien

Les principaux changements sont :

Recherche améliorée
L'apparence des labels a été améliorée
La barre de menu a été remplacée par un menu d'application
Prédiction de label : lors de la numérisation d'un nouveau document, Paperwork tente de deviner les labels à appliquer en se basant sur les documents déjà scannés
Les pages ne sont plus affichées une à une. Il est désormais possible de faire défiler d'une page à l'autre.
Nouvelles options :
- source de la numérisation (plateau, bac d'alimentation, etc)
- le nombre d'orientation de pages à essayer
- l'OCR peut être complètement désactivée
Les numérisations sont affichés en temps réel
Et bien entendu, plein de nouveaux bugs … :-)

Il y aussi quelques nouvelles dépendances (utilisées pour la prédiction de labels) :

joblib
numpy
scipy
scikit-learn
scikit-image

Aller plus loin

Paperwork 0.2 (3089 clics)
Bug tracker (88 clics)
Mailing-list (106 clics)
Annonce de Paperwork 0.1 (523 clics)

# OCR sous Linux

Posté par regis_mail le 22 septembre 2014 à 10:48. Évalué à 6.

Super, je cherchais hier une solution OCR sous Linux et cet article qui tombe… je vais tester de ce pas. Merci

Si quelqu'un possède des infos dans ce domaine, je suis preneur.
# Bravo, excellent travail !

Posté par Yves (site web personnel) le 22 septembre 2014 à 15:24. Évalué à 10.

Bonjour,

Utilisateur de Paperwork depuis bientôt 1 an, je voudrais féliciter les auteurs pour cet outil indispensable, et aussi pour leur support aimable et rapide : j'ai remonté deux bugs, qui ont été résolu l'un et l'autre dans la journée !
Avec presque 600 documents scannés et passés à l'OCR (le plus vieux datant de plus de 10 ans), j'ai déjà pu constater l'intérêt de cet outil :
— Il me faut un papier des impôts ou une facture EDF ? Une petit recherche et c'est fait.
— On me demande une photocopie d'un document ? Le scan est déjà fait, plus qu'à l'imprimer.
— Je veux faire le bilan de mes comptes au fil du temps ? Je filtre, je trie, je lis…

Bonne suite et merci.
- [^] # Re: Bravo, excellent travail !
  
  Posté par Maclag le 23 septembre 2014 à 13:19. Évalué à 3.
  
  Et bien malgré le fait que j'avais suivi les précédents articles, je ne m'en étais jamais servi, mais croyez-moi: je vais m'y mettre dès que possible (pour l'instant suis en déplacement)!
  
  Si des gens ont déjà vécu des déménagements internationaux avec des grosses boites, ils sauront de quoi je parle en termes de tonnes de paperasse:
  -visa pour le travailleur
  -visa pour les "dépendants" (épouse, enfant(s))
  -parfois permis de travail différent du visa
  -sécurité sociale locale
  -"systèmes de l'entreprise" qui peuvent être différents d'une boite à l'autre
  -tiens, la mutuelle de l'entreprise change à chaque pays…
  -t'as-tu envoyé ton dossier aux impôts?
  -…
  
  Et on vous redemande inlassablement les mêmes documents à renvoyer un peu partout parce que rien n'est centralisé. En ce moment, je cherche des documents classés dans "admin-Singapour" ou "admin-Chine" suivant l'endroit où j'en ai eu besoin en premier, et je les cherche… pour l'administration au Canada. Franchement, mes scans, c'est devenu un gros bordel.
  
  Donc merci d'avance pour les services que ça va me rendre quand je vais m'y mettre!! ;)
  - [^] # Re: Bravo, excellent travail !
    
    Posté par Jérôme Flesch (site web personnel) le 24 septembre 2014 à 09:46. Évalué à 2.
    
    Chose amusante, j'ai décidé de travailler sur Paperwork (enfin son prédécesseur) après dû faire la paperasse pour obtenir un visa pour un stage aux US :)
# Stocker en ligne pour partage sur plusieurs PC

Posté par épitre le 22 septembre 2014 à 18:20. Évalué à 4.

Est-il possible de tout stocker en ligne pour pouvoir retrouver toutes ces infos depuis un autre PC?
- [^] # Re: Stocker en ligne pour partage sur plusieurs PC
  
  Posté par Yves (site web personnel) le 23 septembre 2014 à 09:32. Évalué à 1.
  
  Bien sûr, quoique cela ne soit pas pris en charge par le logiciel ; et c'est tant mieux ! La philosophie Unix : chaque outil fait une chose et le fait bien.
  
  Personnellement, je stocke tout sur un partage NFS, également accessible par SSHFS. Mais il est aussi possible d'utiliser le cloud avec un quelconque filesystem s'appuyant sur le cloud, ou même avec son propre cloud, en utilisant OwnCloud et son outil de synchronisation à la Dropbox.
  
  Évidemment, je parle là d'accès depuis plusieurs PC à des moments différents. Pour des accès concurrents, il serait pour le coup nécessaire que le logiciel soit prévu pour ça.
  - [^] # Re: Stocker en ligne pour partage sur plusieurs PC
    
    Posté par épitre le 23 septembre 2014 à 11:45. Évalué à 1.
    
    Je vois mais dans ce cas, où sont stockées les métadonnées (tags, etc…).
    À coté de chaque fichier ou dans un répertoire central?
    Si c'est dans un répertoire central, est-il défini manuellement?
    - [^] # Re: Stocker en ligne pour partage sur plusieurs PC
      
      Posté par Jérôme Flesch (site web personnel) le 24 septembre 2014 à 09:53. Évalué à 2.
      
      Le résultat de l'OCR, les labels et autres sont stocké dans de simple fichiers textes, au coté des scans. Ceci dit, pour les labels, ça changera peut-être dans le futur.
      
      Pour l'anecdote, personnellement, pour synchroniser mes documents entre mes différentes machines, j'utilise SparkleShare. J'utilise aussi eCryptfs pour en assurer la confidentialité.
      - [^] # Re: Stocker en ligne pour partage sur plusieurs PC
        
        Posté par Jean Roc Morreale le 24 septembre 2014 à 10:08. Évalué à 2.
        
        pour les labels, pourquoi ne pas les stocker dans les champs IPTC/XMP ? Cela permettrait de les utiliser dans d'autres applications ou moteurs de recherche. Pareil pour l'OCR, le résultat ne peut-il pas être sauvegardé dans le pdf lui-même ?
        
        [^] # Re: Stocker en ligne pour partage sur plusieurs PC
        
        Posté par Jérôme Flesch (site web personnel) le 24 septembre 2014 à 11:23. Évalué à 3.
        
        pourquoi ne pas les stocker dans les champs IPTC/XMP ?
        
        Meh. Pourquoi IPTC/XMP ? Pourquoi pas des fichiers JSON ? Pourquoi pas des fichiers de config Python ? Pourquoi pas XYZ ?
        Au final, je voulais stocker une liste de labels dans un fichier. Je n'ai pas cherché plus loin.
        
        Pareil pour l'OCR, le résultat ne peut-il pas être sauvegardé dans le pdf lui-même ?
        
        J'ai pris l'approche la plus safe (et la plus simple) que je pouvais : Paperwork ne touche jamais au PDF original. Donc la sortie de l'OCR (s'il y en a une), est stockée à coté du PDF.
        De plus, si on réécrit le PDF pour y inclure la sortie de l'OCR, que faire du texte déjà existant dans le PDF s'il y en a ? On le bazarde ? Et si on se rend compte ensuite que le texte original était finalement meilleur que l'OCR ?
        
        [^] # Re: Stocker en ligne pour partage sur plusieurs PC
        
        Posté par Jean Roc Morreale le 26 septembre 2014 à 11:40. Évalué à 1. Dernière modification le 26 septembre 2014 à 11:41.
        
        Pourquoi pas XYZ ?
        
        Parce qu'on a des normes qui sont bien documentées, supportées par plein de libs/outils/langages et utilisées dans des milliers de logiciels ?
        Et que ça permet d'utiliser ces labels/keyword en-dehors de paperwork sans réécrire une nouvelle moulinette si un jour le projet venait à s'arrêter ?
        Ou bien parce que c'est directement inclus dans le fichier, ce qui est pratique lors de copie, transfert, etc.
        
        Pour l'OCR, si le fichier est un scan raster, l'ocr ne supprimera pas le texte sous sa forme matriciel (c'est en tout cas le fonctionnement d'Abode Acrobat). Si le PDF contient déjà du texte sous une forme parsable, qu'apporte l'OCR ?
        
        [^] # Re: Stocker en ligne pour partage sur plusieurs PC
        
        Posté par Jérôme Flesch (site web personnel) le 27 septembre 2014 à 20:02. Évalué à 1. Dernière modification le 27 septembre 2014 à 20:03.
        
        Parce qu'on a des normes qui sont bien documentées, supportées par plein de libs/outils/langages et utilisées dans des milliers de logiciels ?
        
        Oui, par exemple, on a le CSV. Il se trouve que c'est le format que j'utilise pour les fichiers contenant les labels des documents. Je n'utilise juste pas de parseur CSV (c'est bon vieux bête et méchant line.split(",") sur chaque ligne, avec une interdiction d'utiliser les virgules dans les noms de labels).
        
        Ou bien parce que c'est directement inclus dans le fichier, ce qui est pratique lors de copie, transfert, etc.
        
        Oui, parce-que copier ou transférer un dossier est clairement plus difficile qu'un seul fichier, c'est sûr …
        
        Juste pour info, dans le future, je pense utiliser le format DjVu pour les scans. Ça permettra de justement stocker images et textes dans un même document. Par contre, vu comment le format est peu supporté par d'autres applications, ça réduira la portabilité de ces documents.
        Les labels seront eux stockés dans un seul fichier (sqlite ?) pour des questions d'atomicité des opérations.
        
        Quoiqu'il en soit, cette discussion relève pour moi clairement du troll technique (quitte à perdre du temps, on pourrait se faire un bon vieux Emacs VS Vim ?). Je ne compte pas la poursuivre plus loin.
        
        Si le PDF contient déjà du texte sous une forme parsable, qu'apporte l'OCR ?
        
        J'ai déjà eut le cas d'une facture de téléphone mobile où le texte visible était en fait une image. Un texte aléatoire avait été mis en dessous des images pour faire croire qu'il y avait effectivement du texte dans le PDF (ne me demandez pas pourquoi, j'en ai aucune idée, je n'ai fait que constater et halluciner). D'où le fait que Paperwork permet de repasser un coup d'OCR dessus.
        On peut imaginer d'autre cas : certains personnes font leur scan au boulot. Certains scanner pro proposent de générer des PDFs avec texte issu de l'OCR inclu. Pour peu qu'ils ne soient pas satisfait du résultat de l'OCR du scanner, ils peuvent vouloir essayer Tesseract.
        
        [^] # Re: Stocker en ligne pour partage sur plusieurs PC
        
        Posté par barmic le 29 septembre 2014 à 17:01. Évalué à 3.
        
        Quoiqu'il en soit, cette discussion relève pour moi clairement du troll technique (quitte à perdre du temps, on pourrait se faire un bon vieux Emacs VS Vim ?). Je ne compte pas la poursuivre plus loin.
        
        Je te trouve hyper susceptible la question t'a déjà était posé plusieurs fois ? Si c'est le cas tu gagnerais probablement à coucher ton explication une bonne fois pour toute sur une page de ton site, de ta doc, de ton wiki ou autre et à toujours ramené à cette page avec un "cette question m'a déjà était posée de nombreuse fois et ma réponse se trouve là".
        
        Tous les contenus que j'écris ici sont sous licence CC0 (j'abandonne autant que possible mes droits d'auteur sur mes écrits)
        
        [^] # Re: Stocker en ligne pour partage sur plusieurs PC
        
        Posté par Jérôme Flesch (site web personnel) le 30 septembre 2014 à 10:33. Évalué à 1.
        
        En fait ce n'est pas spécifiquement cette question qui m'embête, c'est toutes les remarques et questions du même genre.
        
        Quoiqu'il en soit, c'est une bonne remarque que tu fais. Je viens d'ajouter ça au wiki:
        https://github.com/jflesch/paperwork/wiki/Faq#why-did-you-do-x-instead-of-y-
        
        Ça m'embête un peu d'avoir ce ton passif-agressif dans la FAQ, mais ces questions sont vraiment récurrentes (le bugtracker en est plein).
        
        [^] # Re: Stocker en ligne pour partage sur plusieurs PC
        
        Posté par barmic le 30 septembre 2014 à 10:46. Évalué à 3.
        
        En fait ce n'est pas spécifiquement cette question qui m'embête, c'est toutes les remarques et questions du même genre.
        
        Je crois que c'est gérer les données dans un endroit spécifique à paperwork vs intégrer les données dans les documents. Ça me semble un peu moins générique que "Why did you do X instead of Y ?" qui paraît un peu violent.
        
        Ça m'embête un peu d'avoir ce ton passif-agressif dans la FAQ, mais ces questions sont vraiment récurrentes (le bugtracker en est plein).
        
        Avec un peu d'autodérision ça passe peut être mieux. Par exemple tu peut faire une allusion au BDFL.
        
        Tous les contenus que j'écris ici sont sous licence CC0 (j'abandonne autant que possible mes droits d'auteur sur mes écrits)
        
        [^] # Re: Stocker en ligne pour partage sur plusieurs PC
        
        Posté par Jérôme Flesch (site web personnel) le 30 septembre 2014 à 11:08. Évalué à 1.
        
        Avec un peu d'autodérision ça passe peut être mieux. Par exemple tu peut faire une allusion au BDFL.
        
        Idée intéressante. J'ai réédité le wiki. Peux-tu me dire ce que tu en penses s'il-te-plaît ?
        
        [^] # Re: Stocker en ligne pour partage sur plusieurs PC
        
        Posté par barmic le 30 septembre 2014 à 11:30. Évalué à 3.
        
        Ça me paraît mieux. Tes liens vers wikipedia sont mauvais par contre (ils pointes des pages de ton wiki).
        
        Tous les contenus que j'écris ici sont sous licence CC0 (j'abandonne autant que possible mes droits d'auteur sur mes écrits)
        
        [^] # Re: Stocker en ligne pour partage sur plusieurs PC
        
        Posté par Jérôme Flesch (site web personnel) le 30 septembre 2014 à 11:34. Évalué à 1.
        
        Woops, c'est corrigé. Merci :)
        
        [^] # Re: Stocker en ligne pour partage sur plusieurs PC
        
        Posté par Jean Roc Morreale le 30 septembre 2014 à 11:03. Évalué à 1.
        
        Il n'y avait rien d'agressif dans ma question initiale, tu as choisi de le prendre comme tel et de faire une réponse dans ce ton. De mon côté, ça me fait aussi vraiment chier de devoir expliquer que je pose une question sur un aspect technique précis parce c'est un point qui est survenu dans beaucoup de mes projets et que connaître les motivations d'une autre approche m’intéresse. Tu es incapable de parler de tes choix techniques sans en prendre ombrage ?
        
        En tout cas merci pour la faq et le fait de faire passer tes interlocuteurs (ou juste moi) pour des trous du cul.
        
        [^] # Re: Stocker en ligne pour partage sur plusieurs PC
        
        Posté par Jérôme Flesch (site web personnel) le 30 septembre 2014 à 11:17. Évalué à 2.
        
        Il n'y avait rien d'agressif dans ma question initiale, tu as choisi de le prendre comme tel et de faire une réponse dans ce ton.
        
        Je sais qu'il n'y avait rien d'agressif. C'est juste que comme dit, c'est des questions récurrentes et c'est fatiguant pour moi. Désolé que ma réponse agacée soit tombée sur toi en particulier alors que ça n'avait rien de personnel.
        
        connaître les motivations d'une autre approche m’intéresse
        
        Je pense que c'est ça le problème de départ. Il y a beaucoup de choix que j'ai fait juste parce-que "il me fallait quelque-chose". Je me fichais de savoir quoi du moment que ça répondait à mon cahier des charges (minimaliste). Du coup, j'ai pris le premier truc qui m'est passé sous la main.
        Je pense qu'il ne faut pas toujours chercher de justification. Il n'y en a parfois juste pas.
        
        La réalité, c'est que pour un problème donné, il y a bien souvent 250 solutions possibles, et dans le tas, il y en 25 qui sont tout à fait satisfaisantes. À partir de là, pour faire le tri, c'est juste plus simple de coder un truc vite fait, et de voir ensuite où ça pose problème.
        
        Là, les fichiers de labels se sont révélés problématiques parce-que je ne peux pas modifier tout les labels sur tout les documents de façon atomique. Mais à coté de ça, il y a plein de choix que j'ai fait à l'arrache qui passent très bien ("Pourquoi GTK plutôt que QT ?", "Pourquoi un client lourd plutôt que léger ?" (et Dieu sait que cette question revient …), etc).
        
        En tout cas merci pour la faq et le fait de faire passer tes interlocuteurs (ou juste moi) pour des trous du cul.
        
        Là encore, rien de personnel. J'aimerais juste resté motivé pour travailler sur Paperwork. Il faut donc que je trouve une solution pour me débarrasser de ces questions récurrentes avant que je pête sérieusement un câble.
        
        [^] # Re: Stocker en ligne pour partage sur plusieurs PC
        
        Posté par Larry Cow le 26 septembre 2014 à 11:51. Évalué à 3.
        
        De plus, si on réécrit le PDF pour y inclure la sortie de l'OCR, que faire du texte déjà existant dans le PDF s'il y en a ? On le bazarde ? Et si on se rend compte ensuite que le texte original était finalement meilleur que l'OCR ?
        
        Tu peux prévoir une sortie hocr (c'est un peu le standard de-facto), et appeler hocr2pdf pour faire la fusion des deux.
        
        [^] # Re: Stocker en ligne pour partage sur plusieurs PC
        
        Posté par Jérôme Flesch (site web personnel) le 27 septembre 2014 à 20:06. Évalué à 1.
        
        Cette solution ne répond pas à l'énoncé du problème. La question était "qu'est-ce qu'on fait du texte initialement présent dans le PDF s'il y en a ?" (parce-que si, ça peut arriver).
        
        [^] # Re: Stocker en ligne pour partage sur plusieurs PC
        
        Posté par barmic le 29 septembre 2014 à 16:56. Évalué à 3.
        
        On demande à l'utilisateur ?
        
        Tous les contenus que j'écris ici sont sous licence CC0 (j'abandonne autant que possible mes droits d'auteur sur mes écrits)
        
        [^] # Re: Stocker en ligne pour partage sur plusieurs PC
        
        Posté par Jérôme Flesch (site web personnel) le 30 septembre 2014 à 10:13. Évalué à 3.
        
        En design d'interface graphique, se décharger sur l'utilisateur est généralement une mauvaise idée. C'est comme ça qu'on finit avec des bloatware comme Eclipse. Sans compter que ici, ça prendrait vraisemblablement la forme d'un popup, et je hais les popups.
        
        Dans le cas dont on parle ici, il n'y a aucune raison de demander à l'utilisateur quoique ce soit. Il a demandé que l'OCR soit passé sur le document, donc c'est le texte issue de l'OCR qui doit être utilisé. Mais:
        
        Réécrire le PDF implique risquer de l'endommager.
        
        L'opération doit rester réversible. À terme, il y aura même une option "Annuler".
        
        Après, si l'utilisateur a besoin d'un PDF contenant le texte de l'OCR, c'est la fonction d'export qui s'en chargera.
        
        [^] # Re: Stocker en ligne pour partage sur plusieurs PC
        
        Posté par barmic le 30 septembre 2014 à 10:20. Évalué à 3.
        
        C'est comme ça qu'on finit avec des bloatware comme Eclipse.
        
        Eclipse pose peu de question et je ne vois pas le liens entre poser des questions et être lourd.
        
        Sans compter que ici, ça prendrait vraisemblablement la forme d'un popup, et je hais les popups.
        
        Pas forcément, non, il y a un tas de manières de notifier l'utilisateur la popup en est une, mais il y en a pleins d'autres (le web en est pleins depuis que les navigateurs ont tous un bloqueur de popup). Ça peut être une zone de notification, une boite qui apparaît dans la fenêtre déjà ouverte (c'est utilisé dans eclipse entre autre), etc
        
        Tous les contenus que j'écris ici sont sous licence CC0 (j'abandonne autant que possible mes droits d'auteur sur mes écrits)
        
        [^] # Re: Stocker en ligne pour partage sur plusieurs PC
        
        Posté par Jérôme Flesch (site web personnel) le 30 septembre 2014 à 10:43. Évalué à 1. Dernière modification le 30 septembre 2014 à 10:45.
        
        Eclipse pose peu de question et je ne vois pas le liens entre poser des questions et être lourd.
        
        Chaque option est une question. Chaque option peut être reformulée sous la forme "Voulez-vous faire X ?". Autant dire que Eclipse (et de façon générale, tout les softs pour spécialistes) noient les utilisateurs sous les questions.
        
        Après, il y a des solutions intelligentes pour contourner ce problème. Par exemple, les extensions Firefox sont une excellente idée.
        
        Ça peut être une zone de notification, une boite qui apparaît dans la fenêtre déjà ouverte (c'est utilisé dans eclipse entre autre), etc
        
        Ça évite la création d'une nouvelle fenêtre. À part ça, aucune réelle différence avec un popup. Dans tout les cas, la question ne peut pas être ignorée. Or ici, la question n'est pas nécessaire.
  - [^] # Re: Stocker en ligne pour partage sur plusieurs PC
    
    Posté par Maclag le 23 septembre 2014 à 13:12. Évalué à 8.
    
    Attention tout de même, j'ai presque l'impression de lire "est-ce que je peux mettre toutes les photos de moi à poil en ligne?".
    
    Les scans de tous tes documents, ça doit quand même représenter une sacré patate d'informations personnelles voire confidentielles.
    Si quelqu'un de malveillant réussit à y accéder, c'est le jackpot (pour lui): tout est là d'un coup.
    
    Je veux bien croire que tu veuilles faire ça depuis ton réseau local, mais je ne sais pas si je me risquerais à mettre ça en prise direct avec le reste du monde.
    
    Bon, le fait que je n'y connaisse pas grand chose en sécu me rend peut-être aussi plus conservateur que nécessaire, à vous de juger…
# Windows

Posté par sifu le 22 septembre 2014 à 19:26. Évalué à 2.

Mon principal souci et l'absence de support de Windows :/
J'avais vu il y a quelques temps une entrée dans le bug tracker un demande dans ce sens mais qui a été fermée (faute de volontaires motivés).
En fait, je me demande si il serait possible de faire une visionneuse uniquement sans trop de difficultés ou bien. De mémoire, le projet utilisait whoosh pour la recherche/indexation. Après, la dernière fois que j'ai regardé Gtk3, Python et Windows ce n'était pas la fête.
- [^] # Re: Windows
  
  Posté par Yves (site web personnel) le 23 septembre 2014 à 09:35. Évalué à 1.
  
  En effet, une visionneuse ne devrait pas être trop difficile à réaliser : les formats utilisés sont simples et la « base de données », c'est le filesystem !
  Peut-être un simple petit script python avec un peu de wxgtk… Je vais y réfléchir…
# Base de données propre ou metadata

Posté par fraaargh le 22 septembre 2014 à 22:35. Évalué à 2.

Hello,
fut un temps ou je cherchais une telle solution, donc bravo aux devs ;)
Actuellement en fait, j'utilise de plus en plus ce qui est intégré à KDE pour tagger/noter les fichiers. D'apres ce que j'avais lu, les données créées (tags/notes) sont enregistrées dans les metadata des fichiers. C'est une fonctionnalité des systemes de fichiers modernes (en bref, en FAT32 spa possible). Sicette fonctionnalité n'est pas supporté par le FS, alors Baloo enregistre ces données dans une base de donnée dans le $HOME.
Comment fonctionne paperwork ? Possede il sa propre base de données proprio ? Serait il envisageable de se baser sur le même principe que Baloo ?
#jeSuisCurieux
- [^] # Re: Base de données propre ou metadata
  
  Posté par Jérôme Flesch (site web personnel) le 23 septembre 2014 à 07:25. Évalué à 5.
  
  Tout est documenté sur le wiki. En gros, j'ai essayé de garder les choses le plus simple possible.
# Paquets Debian

Posté par plietar le 23 septembre 2014 à 14:01. Évalué à 9. Dernière modification le 23 septembre 2014 à 14:02.
A noter aussi que j'ai fini d'empaqueter Paperwork pour debian.
Les paquets sont disponible sur mon depot, je vais maintenant me pencher sur l'inclusion dans les depots officiels
```
echo "deb http://deb.lietar.net sid main" > /etc/apt/sources.list.d/paperwork.list
apt-get update
apt-get install paperwork
```
J'ai envoyé plus de details sur la mailing-list : https://groups.google.com/forum/#!topic/paperwork-gui/j0O5LEqZfVU
- [^] # Re: Paquets Debian
  
  Posté par feth le 24 septembre 2014 à 00:33. Évalué à 3.
  Merci, ça m'a permis de tester très facilement !
  Premier retour : mon système est en français, mais paperwork me propose les langues de documents suivantes :
  - Désactiver l'OCR
  - English
  - equ
  - osd
  Je n'ai pas trouvé d'information à ce sujet dans la doc, mais je suggère que le paquet debian recommande tesseract-oct-fra et tous ses amis.
  - [^] # Re: Paquets Debian
    
    Posté par plietar le 24 septembre 2014 à 03:07. Évalué à 4.
    
    Il n'y a pas de raison pour que paperwork recommande tesseract-oct-fra plutôt que tesseract-oct-jpn/ita/… La taille des paquets étant significative, je ne voudrait pas tous les mettre en recommandation.
    
    Par contre c'est vrai que la doc devrait le mentionner, voire la fenêtre de sélection de langue pourrait expliquer comment en ajouter plus. Je note ça sur ma TODO-list.
    
    Merci du retour.
    - [^] # Re: Paquets Debian
      
      Posté par feth le 24 septembre 2014 à 09:48. Évalué à 3.
      
      De la doc dans l'appli, ça serait chouette !
      
      Je viens de regarder comment les mainteneurs Debian s'y sont pris pour kde : il y a un paquet virtuel kde-l10n qui est implémenté par kde-l10n-fr. Rien de tel pour tesseract, mais je ne sais pas si cela simplifierait l'installation.
      - [^] # Re: Paquets Debian
        
        Posté par Jérôme Flesch (site web personnel) le 24 septembre 2014 à 10:03. Évalué à 4. Dernière modification le 24 septembre 2014 à 10:06.
        
        Pour la doc dans l'appli, je viens d'ajouter un ticket.
        
        Sinon, niveau Debian, je me disais que, peut-être, ça aurait du sens de faire des paquets bidons paperwork-l10n-<XX> ? Parce-qu'en fait, il n'y pas juste l'OCR, mais aussi la correction orthographique (utilisée pour améliorer la détection de l'orientation des pages) --> paperwork-l10n-fr tirerait par exemple tesseract-ocr-fra + aspell-fr/ifrench/whatever ? (après, je réalise que ce n'est pas trivial, surtout qu'on ne sait pas quel correcteur orthographique l'utilisateur souhaite installer et utiliser)
        
        [^] # Re: Paquets Debian
        
        Posté par sebas le 25 septembre 2014 à 00:30. Évalué à 1.
        
        (après, je réalise que ce n'est pas trivial, surtout qu'on ne sait pas quel correcteur orthographique l'utilisateur souhaite installer et utiliser)
        
        tessaract-ocr-XX, il y aura probablement besoin de l'installer, alors qu'il y aura sûrement un correcteur de la langue par défaut déjà installé dans le système. Tu pourrais aller voir dans les répertoires ad-hoc (style /usr/share/apell | ispell | hunspell etc..) et offrir le choix entre les langues qui s'y trouvent.
        
        Claws-mail fait ainsi, sur clic droit dans un mail en écriture, il te propose un menu avec les différentes langues dispos (mais il ne s'occupe pas d'en installer), tu pourrais éventuellement fureter dans leur code voir comment ils gèrent ça ? (il me semble que leur rep. de base pour ça est hunspell)
- [^] # Re: Paquets Debian
  
  Posté par Yannig le 22 novembre 2014 à 20:49. Évalué à 0.
  
  Bonsoir,
  
  Avec Wheezy cela n'a pas marché que ce soit avec le dépôt ou avec la méthode manuelle!
  Le dépôt semble inconnu.
  
  Dommage j'avais un document de 1920 à traiter.
  
  Amitiés
# Organisation de la "BDD"

Posté par Astaoth le 29 septembre 2014 à 16:28. Évalué à 1.

Salut,
J'ai jeté un coup d'oeil sur le GitHub à l'organisation des dossiers et j'aurais deux questions :
Pour la date, est-ce qu'il serait possible de la récupérer à partir du document ? Pour les imports initiaux, ca peut être assez monstrueux de tout renommer pour mettre les bonnes dates.
Est-ce qu'il serait possible de mettre les dossiers ayant des dates en guise de nom dans des dossiers nommés en fonction du "domaine" ? Par exemple si demain je scanne une facture EDF, je trouverais pratique qu'elle atterrisse dans le dossier EDF/date

Emacs le fait depuis 30 ans, et sans pubs ni télémétrie.
- [^] # Re: Organisation de la "BDD"
  
  Posté par Yves (site web personnel) le 30 septembre 2014 à 09:34. Évalué à 2. Dernière modification le 30 septembre 2014 à 09:37.
  
  N'étant pas contributeur de Paperwork (sauf pour me plaindre des bugs dont je suis à moitié responsable :D ), ma réponse est à prendre avec des pincettes…
  
  Il me semble que le projet ne peut pas se permettre d'organiser les dossiers comme tu le dis car ce qui est bien pour un utilisateur ne sera pas bien pour un autre (moi, par exemple, qui applique en moyenne 3 tags à chaque document : qui, quoi, où) ; de plus, l'organisation que tu décris serait complexe à gérer en cas de modifications de l'utilisateur (renommages, modifications).
  
  Enfin, il n'est pas si complexe d'exécuter une commande comme :
  grep -l '^EDF,' */labels
  
  Pour la reconnaissance automatique de la date, je crains que ce ne soit impossible tellement il y a de manières d'écrire une date, tellement il y a d'emplacements où l'écrire… et il n'est pas rare que plusieurs dates figurent dans un document. À la limite, le logiciel pourrait apprendre à suggérer une date en fonction des tags appliqués (l'utilisateur pourrait indiquer au logiciel l'endroit où lire la date sur une facture EDF…)
  - [^] # Re: Organisation de la "BDD"
    
    Posté par Jérôme Flesch (site web personnel) le 30 septembre 2014 à 19:38. Évalué à 1.
    
    Pour la reconnaissance automatique de la date, je crains que ce ne soit impossible tellement il y a de manières d'écrire une date, tellement il y a d'emplacements où l'écrire… et il n'est pas rare que plusieurs dates figurent dans un document.
    
    Hm, à voir. Au moins pour les PDFs, il est peut-être possible de trouver une date pertinente et présente dans la plupart d'entre eux. Il faudrait peut-être juste s'assurer que la date en question n'est pas délirante (je viens de regarder une de mes factures, et j'ai Modified: 1970-01-01 00:59:59 … :)
    
    Je me suis rajouté un ticket
# Ebuild Gentoo

Posté par Panda Voyageur (site web personnel, Mastodon) le 30 septembre 2014 à 13:15. Évalué à 2.

Enfin testé hier soir, et effectivement le concept "scan&forget" passe super bien. Démarrage de paperwork, configuration simple et rapide (choix du dossier et clic sur calibrage au cas où), et je commençais mon archivage de documents de test!

Je vais en profiter pour rajouter les packages dans Gentoo
# scan2email et trigger

Posté par PhE le 30 septembre 2014 à 17:27. Évalué à 1.

La source des documents est un scanner.
Beaucoup de multifonction ou copieur "pro" ont une fonction scan2mail (ou envoie vers un partage FTP ou Windows).
Ces équipements ne pouvant être utilisé comme scanner (non supporté, pas autorisé ou simplement trop loin du PC), est-il prévu de pouvoir utiliser une boite de courriel (IMAP ou POP3) comme source des scans ? (ou un répertoire).

Deuxième question :
Une fois les documents numérisés, quand les tags sont appliqués est-il possible de déclencher un script externe ?

Voici le cas d'utilisation ciblé pour ces deux exemples :
Je suis un artisan qui possède un copieur. Je numérise mes documents via ce copieur avec la fonction scan2mail (ou répertoire réseau).
Quand j'arrive sur mon poste Paperwork détecte les nouveaux documents et les intègre. Les documents détectés comme des factures déclenchent un script externe (que je développe) pour envoyer ces factures dans ma compta ~~Sage~~ Dolibarr.

Ce cas d'utilisation vous semble-il en accord avec les objectifs de Paperwork ?
- [^] # Re: scan2email et trigger
  
  Posté par Jérôme Flesch (site web personnel) le 30 septembre 2014 à 18:16. Évalué à 2.
  
  Ces équipements ne pouvant être utilisé comme scanner (non supporté, pas autorisé ou simplement trop loin du PC), est-il prévu de pouvoir utiliser une boite de courriel (IMAP ou POP3) comme source des scans ?
  
  Non.
  
  (ou un répertoire).
  
  Il est déjà possible d'importer un répertoire de PDFs. Je ne l'ai pas fait avec les images pour l'instant parce-que ça présente moultes complications.
  
  Une fois les documents numérisés, quand les tags sont appliqués est-il possible de déclencher un script externe ?
  
  Non.
  
  Ce cas d'utilisation vous semble-il en accord avec les objectifs de Paperwork ?
  
  Non.
  
  L'objectif est "scanner & oublier". Pas "rentrer ses réglages email dans Paperwork & aller scanner au boulot & lancer Paperwork chez soi".
  
  Le public visé est les particuliers, pas les artisans.
  
  De plus, ça soulève plein de complications, aussi bien pratique qu'en terme de design d'UI. Je suppose qu'on ne parle pas d'une adresse email dédiée ? --> Il faut notamment pouvoir faire le tri entre les mails venant du scanner et les autres.
  
  Au final, pour un particulier, on parle de maximum 3 à 4 documents à scanner par jour. Pour ces cas, il est donc juste plus simple qu'il se débrouille avec son scanner comme il l'entend, et qu'il utilise la fonction d'import pour les ajouter dans Paperwork. Ça évitera de polluer la GUI avec des options que 99% des gens n'utilisent pas.
  
  Sur une note plus personnelle, je n'aurais aucune utilité pour une telle fonctionnalité. Je n'ai donc aucune incitation à la coder. Pire que ça, je n'aurais aucune incitation à la tester régulièrement et la maintenir fonctionnelle.
  - [^] # Re: scan2email et trigger
    
    Posté par PhE le 30 septembre 2014 à 19:52. Évalué à 0. Dernière modification le 30 septembre 2014 à 19:54.
    
    Je suppose qu'on ne parle pas d'une adresse email dédiée
    
    On peut dédier une adresse mail à celà.
    Sinon les fonctions scan2mail utilisent toujours un titre fixe facilement repérable via une regex.
    
    Le public visé est les particuliers, pas les artisans.
    
    Je comprends.
    
    Oublions donc les artisans …
    
    Je suis un particulier. J'ai une multi-fonction laser en réseau. Je ne l'utilise pas en tant que scanner USB car … ça ne marche pas (j'ai toujours eu plus de chance à faire marcher une imprimante sous Linux qu'un scanner, surtout sur une multi-fonction).
    J'utilise massivement le scan2mail pour m'envoyer des documents.
    
    Je suis toujours un particulier et je me rends compte qu'il est parfois encore plus efficace d'utiliser son smartphone pour numériser rapidement un document.
    (je suis particulièrement impressionné par la fonction "scan" de Google Drive … qui n'est malheureusement par libre).
    - [^] # Re: scan2email et trigger
      
      Posté par Jérôme Flesch (site web personnel) le 30 septembre 2014 à 20:16. Évalué à 1.
      
      Je suis un particulier. (…)
      
      Particulier dans un cas qui ne concerne que 0.01% des gens --> Utilisation de l'import de fichiers.
      - [^] # Re: scan2email et trigger
        
        Posté par PhE le 30 septembre 2014 à 22:01. Évalué à 1.
        
        0.01% des gens
        
        être considéré comme un marginal sur LinuxFr et un sacré compliment … merci ;-)
        
        L'import de fichiers est-il scriptable ? (en ligne de commande, via une API ou un module Python)
        
        [^] # Re: scan2email et trigger
        
        Posté par Jérôme Flesch (site web personnel) le 01 octobre 2014 à 07:29. Évalué à 2.
        
        L'import de fichiers est-il scriptable ? (en ligne de commande, via une API ou un module Python)
        
        Non. Ceci dit, la structure du répertoire de travail et des documents est actuellement très simple, ce qui rend la création de script assez facile.
- [^] # Re: scan2email et trigger
  
  Posté par Jérôme Flesch (site web personnel) le 30 septembre 2014 à 18:26. Évalué à 2.
  
  Une fois les documents numérisés, quand les tags sont appliqués est-il possible de déclencher un script externe ?
  
  Je viens de rajouter un ticket à ce sujet dans le bugtracker. À voir.
- [^] # Re: scan2email et trigger
  
  Posté par Yves (site web personnel) le 01 octobre 2014 à 11:46. Évalué à 2.
  
  Indépendamment de ce que sait faire Paperwork, tu as un ami pour t'aider dans ta quête : inotify.
  Tu peux utiliser les inotify-tools, ou même incron.
# Impossible de scanner

Posté par NicolasP le 06 octobre 2014 à 11:56. Évalué à 1.

Salut,

J'ai voulu faire un test de paperwork, je n'ai pas réussi à scanner de documents. Quand je clique sur le bouton "scanner", j'arrive sur la fenêtre de réglage. Mon scanner (Samsung M2070) est bien affiché dans le champ "Périphérique". Le champ source est vide et la liste déroulante est désactivée. Le bouton "Scanner" est désactivé lui aussi.
Une idée du problème ou de ce que j'ai raté ?

Pour info, le scanner fonctionne avec Simple Scan (Ubuntu 14.04).

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.