Sortie de Paperwork 0.1

Posté par Jérôme Flesch (site web personnel) le 13 août 2013 à 11:40. Édité par Xavier Teyssier et Benoît Sibaud. Modéré par patrick_g. Licence CC By‑SA.

Étiquettes :

août

2013

Après des années de R&D acharnée, trois arrêts cardiaques suite à des abus de caféine, et deux divorces, elle est finalement arrivée : la solution du parfait flemmard pour organiser ses documents papiers (ou pas) sous GNU/Linux. Paperwork est une interface graphique conçue avec une idée en tête : "scan&forget" (« numériser et puis voilà fini »). Lire, trier et indexer les papiers est un travail de machine, pas d'humain.

La version 0.1 a (enfin) été publiée.

Un screenshout qui montre comment c'est beau.

Au menu :

reconnaissance de caractères & indexation automatique ;
détection automatique de l'orientation des pages ;
support des scanners à bac ;
import de PDF et d'images ;
possibilité de mettre des labels sur les documents ;
retouche rapide des scans (orientation/découpe).

À noter que la branche Git par défaut ('stable') correspond toujours à la dernière version sortie de Paperwork. Il s'agit donc de la version 0.1 actuellement.

Aller plus loin

Le site de Paperwork (3515 clics)
Bug tracker (121 clics)
Mailing-list (117 clics)
Le mail d'annonce (109 clics)

# Hmmm ...

Posté par LaBienPensanceMaTuer le 13 août 2013 à 12:04. Évalué à 7.

… question:

et deux divorces

Sans les mains, comment fais tu pour coder ?
- [^] # Re: Hmmm ...
  
  Posté par floriang le 14 août 2013 à 14:32. Évalué à 3.
  
  Avec les pieds ? ;-P
# ocr

Posté par collinm (site web personnel) le 13 août 2013 à 12:07. Évalué à 2.

L'ocr utilisé est soit Cuneiform ou Tesserac, ce dernier était développé par hp.
des retours de ce moteur?

www.solutions-norenda.com
- [^] # Re: ocr
  
  Posté par Jérôme Flesch (site web personnel) le 13 août 2013 à 12:13. Évalué à 7.
  
  Ça a été repris par Google ("An OCR Engine that was developed at HP Labs between 1985 and 1995… and now at Google.").
  C'est celui que j'utilise personnellement. Il marche bien dans l'ensemble.
  
  Pour l'heure, je déconseille d'utiliser Cuneiform avec Paperwork. J'ai encore des soucis avec.
  - [^] # Re: ocr
    
    Posté par gyom gyom le 20 août 2013 à 15:11. Évalué à 1.
    
    Je kiffe l'idée de l'appli et m'en vais la tester de suite.
    
    En revanche, j'ai essayé tous les OCR libres que j'ai trouvé, pas un n'a été foutu de me détecter ne serait-ce qu'un seul mot dans un document pourtant simple (scan propre d'un article scientifique)…
    Alors je reste sceptique…
    - [^] # Re: ocr
      
      Posté par steph1978 le 23 août 2013 à 15:31. Évalué à 2.
      
      Tu veux dire que l'auteur de cet article a truqué la capture d'écran ?
      - [^] # Re: ocr
        
        Posté par barret benoit le 29 août 2013 à 16:53. Évalué à 1.
        
        … ou que le texte scientifique était pas assez vulgarisé pour les OCR.
# Très bien

Posté par Gardouille le 13 août 2013 à 13:58. Évalué à 4.

Récupération d'une multifonction la semaine dernière, ce fut enfin l'occasion de tester Paperwork =)

Joli et fonctionnel donc parfait pour moi (pour le moment :p).

Pour information, j'avais commencé l'installation avec un Linux Pratique que l'on m'avait filé, je suis vite passé au Readme du github ;) Bien plus rapide et claire.

Continuez comme ça.
- [^] # Re: Très bien
  
  Posté par Jérôme Flesch (site web personnel) le 13 août 2013 à 14:03. Évalué à 2.
  
  L'article dans Linux Pratique avait été écrit bien avant cette release et .. juste avant que je change le processus d'installation. :/
  En tout cas, je remercie quand même son rédacteur pour la pub. D'ailleurs, ça me fait penser qu'il faut encore que j'encadre et que j'accroche l'article sur mon mûr ;)
  - [^] # Re: Très bien
    
    Posté par Dring le 14 août 2013 à 12:10. Évalué à 5.
    
    Es-tu sûr d'être assez mûr pour ça ?
  - [^] # Re: Très bien
    
    Posté par Professeur Méphisto le 15 août 2013 à 08:30. Évalué à 7.
    
    il faut encore que j'encadre
    
    tu veux dire que tu as gardé une version « papier » de l'article ??
# Bravo !

Posté par vlamy le 13 août 2013 à 13:59. Évalué à 4.

Je suis agréablement surpris par le travail « d'empaquetage » (c'est bien comme ça qu'on dit?) qui a été abattu depuis le dernier journal sur paperwork. Je n'ai plus d'excuse pour ne pas réussir à le faire tourner sur un système non basé sur Debian.
Bravo ! Le projet à l'air de prendre une jolie tournure.

Longue vie à paperwork !
# stockage ?

Posté par Anonyme le 13 août 2013 à 14:11. Évalué à 2.

J'ai peut-être mal cherché, mais je n'ai pas trouvé comment était stockées les données, que ce soit les documents, le résultat de l'OCR ou les annotations.
Peux-tu nous en dire plus ?
- [^] # Re: stockage ?
  
  Posté par Jérôme Flesch (site web personnel) le 13 août 2013 à 14:23. Évalué à 7.
  
  J'ai déplacé ce genre d'infos dans le wiki GitHub du projet :
  https://github.com/jflesch/paperwork/wiki#for-developers
  https://github.com/jflesch/paperwork/wiki/Work-directory-organization
  - [^] # Re: stockage ?
    
    Posté par steph1978 le 23 août 2013 à 16:03. Évalué à 2.
    
    Merci pour cette application du principe KISS: le FS pour stocker de la donnée, ça me parait sain. C'est robuste, ça se backup bien.
    Et merci pour ce soft : j'ai hâte de m'attaquer à ma pile de papier.
# Format et ligne de commande

Posté par Jiehong (site web personnel) le 13 août 2013 à 14:11. Évalué à 3.
Ça fait plaisir d'avoir des nouvelles d'un projet qui me tente de plus en plus.

Malgré ce travail très attirant, je me permet de poser quelques questions :
- De quelle manières les étiquettes (« labels ») sont-elles enregistrées ?
- Quid de l'index et de l'OCR ?
- Une interface en ligne de commande est-elle prévue ? (pour lancer une recherche par exemple)
- [^] # Re: Format et ligne de commande
  
  Posté par Jérôme Flesch (site web personnel) le 13 août 2013 à 14:30. Évalué à 4.
  
  De quelle manières les étiquettes (« labels ») sont-elles enregistrées ?
  
  Un bête fichier texte dans chaque document/répertoire.
  
  Ceci dit, ça peut causer potentiellement des problèmes de synchro dans le cas de coupures brutales de Paperwork lors de la modifications des labels. Donc, à terme, ça sera sûrement déplacé dans une bdd sqlite ou au moins un seul fichier central.
  
  Quid de l'index et de l'OCR ?
  
  L'index whoosh est stocké dans ~/.local/share/paperwork. À noter que les documents (~/papers/) sont la référence pour le contenu de l'index. Autrement dit, le contenu de l'index est toujours mis à jour à partir des documents.
  
  Les fichiers contenant le résultat de l'OCR sont stockés dans les répertoires des documents (papers..words).
  
  Une interface en ligne de commande est-elle prévue ? (pour lancer une recherche par exemple)
  
  Je suis assez septique concernant l'utilité d'une telle fonctionnalité : il faut de toute façon consulter les pages avec un outil graphique au final (la sortie de l'OCR est de qualité variable).
  - [^] # Re: Format et ligne de commande
    
    Posté par Kerro le 13 août 2013 à 19:57. Évalué à 4. Dernière modification le 13 août 2013 à 20:01.
    
    Une interface en ligne de commande est-elle prévue ? (pour lancer une recherche par exemple)
    
    Je suis assez septique concernant l'utilité d'une telle fonctionnalité : il faut de toute façon consulter les pages avec un outil graphique au final (la sortie de l'OCR est de qualité variable).
    
    .
    
    Pourtant dans ton intro tu indiques :
    
    Lire, trier et indexer les papiers est un travail de machine, pas d'humain.
    
    Les machines ne sont pas à l'aise pour cliquer sur des boutons et dérouler des menus.
    Par contre elles sont très à l'aise pour traiter le résultat d'une commande et le transmettre à un système tiers.
    
    Deux exemples tirés dans commentaires plus bas :
    
    Il faut juste que je configure un truc pour expédier mes papiers dits importants (avec une label "important") dans le "cloud" et ce sera parfait (un petit script qui lit dans le fichier label de chaque dossier devrait suffire et évitera de stocker dans les nuages mes factures edf).
    
    Donc là il faut scripter.
    
    .
    
    vivement la sortie du robot qui prendra le temps de tout scanner.
    
    On peut par exemple prendre en entrée des documents générés automatiquement par un système de facturation, un système de veille, des emails qu'on veut stocker, etc.
    Nécessite une interface en ligne de commande et/ou une API.
    - [^] # Re: Format et ligne de commande
      
      Posté par Jérôme Flesch (site web personnel) le 13 août 2013 à 22:11. Évalué à 5.
      
      il faut scripter.
      
      Ok, bonne réponse :)
      J'ai rajouté le ticket. Je tacherais de voir ce que je peux faire quand j'aurais le temps et la motivation.
      - [^] # Re: Format et ligne de commande
        
        Posté par Kerro le 14 août 2013 à 20:21. Évalué à 3.
        
        quand j'aurais le temps et la motivation
        
        Rhalala, ces libristes, on ne peut jamais rien leur demander.
        Mine de rien, c'est facile de dire il faut çi il faut ça. Au final il y a toujours un gus qui le fait (ou pas) sur son temps libre.
        
        [^] # Re: Format et ligne de commande
        
        Posté par be_root le 17 août 2013 à 09:34. Évalué à 6.
        
        Au final il y a toujours un gus qui le fait (ou pas) sur son temps libre.
        
        Et c'est pour cela qu'on les appelle des libristes…
        
        Il se prend pour Napoléon, son état empire.
  - [^] # Re: Format et ligne de commande
    
    Posté par Jiehong (site web personnel) le 14 août 2013 à 09:29. Évalué à 1. Dernière modification le 14 août 2013 à 09:32.
    
    Le format PDF peut contenir la couche texte issue de l'OCR, dans ce cas, est-ce vraiment utile de la garder dans un fichier texte à part ?
    
    Je me demande si les labels ne seraient pas également enregistrables directement au sein du PDF, mais là, je n'en sais rien.
    
    Note : je viens de voir une entrée dans la liste des bogues lié à l'inclusion du texte dans les PDFs.
    - [^] # Re: Format et ligne de commande
      
      Posté par barmic le 14 août 2013 à 10:22. Évalué à 2.
      
      Le format PDF peut contenir la couche texte issue de l'OCR, dans ce cas, est-ce vraiment utile de la garder dans un fichier texte à part ?
      
      Je présume qu'il faut positionner le texte dans la page ce n'est peut être pas simple.
      
      Je me demande si les labels ne seraient pas également enregistrables directement au sein du PDF, mais là, je n'en sais rien.
      
      Si si c'est tout à fait possible (mais il faudra de toute manière garder un indexe pour être un peu rapide).
      
      Tous les contenus que j'écris ici sont sous licence CC0 (j'abandonne autant que possible mes droits d'auteur sur mes écrits)
      - [^] # Re: Format et ligne de commande
        
        Posté par Jiehong (site web personnel) le 14 août 2013 à 11:02. Évalué à 1.
        
        Le fait d'avoir toutes ces informations au sein même du fichier PDF permettrait de simplement pouvoir les réutiliser dans 10 / 20 ans avec n'importe quel logiciel. Même si quelques fichiers textes à côté ne sont pas un problème en soi, c'est toujours plus simple si on a un document unique.
        
        Si si c'est tout à fait possible (mais il faudra de toute manière garder un indexe pour être un peu rapide).
        
        Je suis tout à fait d'accord.
        
        [^] # Re: Format et ligne de commande
        
        Posté par barmic le 14 août 2013 à 11:17. Évalué à 3.
        
        Le fait d'avoir toutes ces informations au sein même du fichier PDF permettrait de simplement pouvoir les réutiliser dans 10 / 20 ans avec n'importe quel logiciel. Même si quelques fichiers textes à côté ne sont pas un problème en soi, c'est toujours plus simple si on a un document unique.
        
        Ça permet de se baser sur quelque chose qui s'il n'est pas un standard est une base commune sur la quelle d'autres logiciels peuvent s'appuyer. Bref c'est de l’interopérabilité.
        
        Tous les contenus que j'écris ici sont sous licence CC0 (j'abandonne autant que possible mes droits d'auteur sur mes écrits)
        
        [^] # Re: Format et ligne de commande
        
        Posté par steph1978 le 23 août 2013 à 16:06. Évalué à 2.
        
        Je ne suis pas d'accord.
        Le format pdf est très compliqué et rien ne dit qu'il sera pérenne sur 20 ans, à comparer à des fichiers texte.
        Je trouve le design actuel, un fichier par usage, très pertinent.
        D'autre part, si vous lisez les spécifications, les pdf ne représente qu'un type de fichier, les scan sont stocké en jpg.
        Kiss
        
        [^] # Re: Format et ligne de commande
        
        Posté par claudex le 24 août 2013 à 16:21. Évalué à 4.
        
        On peut utiliser une version standardisé du PDF pour que ce soit justement pérenne sur 20 ans.
        
        « Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche
# scan&forget ...

Posté par littlebreizhman le 13 août 2013 à 14:36. Évalué à 10.

Je suis utilisateur de paperwork depuis que la permière "pub" à son sujet ici.

Je suis très content de son utilisation et de son évolution même si son installation était un peu rustique (mais cela c'est semble-t-il amélioré).
L'indexation fonctionne bien et l'interface est simple et fonctionnelle.

Il faut juste que je configure un truc pour expédier mes papiers dits importants (avec une label "important") dans le "cloud" et ce sera parfait (un petit script qui lit dans le fichier label de chaque dossier devrait suffire et évitera de stocker dans les nuages mes factures edf).

Maintenant mon plus gros problème est que si le concept de scan&forget est intéressant, j'en suis encore à forget2scan vu la pile de documents posés sur ma multifonction !

L'humain est toujours la faille…

En tout cas merci pour le soft.
- [^] # Re : scan&forget ...
  
  Posté par _jordan_ le 13 août 2013 à 15:05. Évalué à 1.
  
  Même constat, vivement la sortie du robot qui prendra le temps de tout scanner.
  
  Merci pour le soft, en attente du hard.
  - [^] # Re: Re : scan&forget ...
    
    Posté par Anonyme le 13 août 2013 à 17:21. Évalué à -10.
    
    cela ne s'appelle pas une femme ?
    
    -> []
    - [^] # Re: Re : scan&forget ...
      
      Posté par Benoît Sibaud (site web personnel) le 13 août 2013 à 18:33. Évalué à 8.
      
      Bah visiblement tu as du temps à perdre aussi pour écrire un tel commentaire, tu devrais plutôt le passer à numériser des documents importants.
      - [^] # Re: Re : scan&forget ...
        
        Posté par littlebreizhman le 13 août 2013 à 21:21. Évalué à 3.
        
        Et s'il a encore du temps après les siens, il peut passer chez moi dépiler ma paperasse !
      - [^] # Re: Re : scan&forget ...
        
        Posté par zebra3 le 14 août 2013 à 09:26. Évalué à 2.
        
        'tain les mecs vous n'avez pas d'humour :-/
        
        Article Quarante-Deux : Toute personne dépassant un kilomètre de haut doit quitter le Tribunal. -- Le Roi de Cœur
        
        [^] # Re: Re : scan&forget ...
        
        Posté par adonai le 14 août 2013 à 10:17. Évalué à 4.
        
        C'est ce que m'a dit Philippe Bouvard hier quand je lui ai annoncé que quand j'étais pas fan des "grosses têtes" !
      - [^] # Re: Re : scan&forget ...
        
        Posté par Maclag le 14 août 2013 à 19:51. Évalué à 7.
        
        Il peut plus. À l'heure qu'il est, il est encore coincé dans la cuisine avec une liste de tâches sous le nez incluant la cuisine, la vaisselle, la lessive et le nettoyage complet de la maison pendant que sa femme termine le scan du dernier document avec une liste de tâches qui ne comporte que:
        1. scanner toute la paperasse
        2. écrire une connerie sur linuxfr
# Idée d'amélioration possibles

Posté par isildur37 le 13 août 2013 à 15:34. Évalué à 2.
Félicitation pour ton taff.
Pour te donner quelques idées pour la suite (qui sait, tu as peut-etre envie de faire tendre le ration crises cardiaques/ divorces vers 1, voici le flot que j'ai aujourd'hui:
- Scan
- Classification (manuelle, en dossiers)
- Chiffrement (TrueCrypt)
- Synchronisation inter-machines et en ligne(Dropbox)
Je ne connaissais pas ton soft, je pense que je vais le tester sous peu, car justement le point faible de mon système est l'indexation et l'OCR.
Le chiffrement a 2 justifications principales:
-> Stockage de documents importants (une facture EDF est un justificatif d'identité dans nombre de cas).
-> Stockage sur un service en ligne, fiable pour la réplication mais nettement moins pour la sécurité…

Avant de me faire tirer dessus pour dropbox qui n'est pas libre, voici le cahier des charges que j'avais fixé:
-> Synchronise les donnees
-> Offre un espace adapté à ce que je veux (2-5Go)
-> Permet la synchro Windows/Linux/Android
-> Synchro en LAN si une machine est disponible dans le réseau local. Donc optimise la bande passante qui est limitée chez moi, et d'autant plus sur les réseaux mobiles…

L'utilisant depuis le début et n'ayant jamais eu de souci, je continue. Si vous avez une alternative libre avec la synchro LAN je suis preneur, mais je n'ai rien trouvé de probant. Une bonne API serait un plus très apprécié d'ailleurs.

Je vais essayer de combiner ta solution avec la mienne, et voir si (et comment) je peux contribuer au projet.
- [^] # Re: Idée d'amélioration possibles
  
  Posté par Nicolas Boulay (site web personnel) le 13 août 2013 à 16:51. Évalué à 3.
  
  A coupler avec http://camlistore.org/ plutôt que de réinventer la roue ?
  
  "La première sécurité est la liberté"
- [^] # Re: Idée d'amélioration possibles
  
  Posté par Zenitram (site web personnel) le 13 août 2013 à 20:25. Évalué à 8.
  
  (une facture EDF est un justificatif d'identité dans nombre de cas).
  
  Certainement pas.
  De domiciliation par contre…
  - [^] # Re: Idée d'amélioration possibles
    
    Posté par Dring le 14 août 2013 à 12:18. Évalué à 3.
    
    Et même ça c'est ridicule. C'est vrai que falsifier une facture EDF, c'est vraiment un truc super difficile.
  - [^] # Re: Idée d'amélioration possibles
    
    Posté par isildur37 le 14 août 2013 à 12:27. Évalué à 1.
    
    Il m'a servi de justificatif d'identité pour mon agence de location…
- [^] # Re: Idée d'amélioration possibles
  
  Posté par zogzog le 13 août 2013 à 21:52. Évalué à 2.
  
  En l'occurence, vu qu'on veut chiffrer des documents, gnupg semble plus adapté que truecrypt, non ?
  
  Sinon, pour l'archivage des documents importants et confidentiels, ça doit pouvoit se gérer avec un cron qui utilise http://duplicity.nongnu.org/.
  - [^] # Re: Idée d'amélioration possibles
    
    Posté par Joris Dedieu (site web personnel) le 14 août 2013 à 10:38. Évalué à 2.
    
    Sinon, pour l'archivage des documents importants et confidentiels, ça doit pouvoit se gérer avec un cron qui utilise http://duplicity.nongnu.org/.
    
    Ou le fabuleux tarsnap : https://www.tarsnap.com/
    - [^] # Re: Idée d'amélioration possibles
      
      Posté par isildur37 le 15 août 2013 à 20:11. Évalué à 1.
      
      Merci, je vais jeter un coup d'oeil à vos solutions.
# Excellent

Posté par wluce0 le 13 août 2013 à 15:46. Évalué à 2.

Cela faisait longtemps que j'attendais un outil comme celui-ci, chose étonnante, je commençais à réflechir à faire quelque chose de la sorte. Petite question toutefois, pourquoi l'importation de document est elle si longue ? J'imagine qu'il execute un OCR sur chaque document, peut on désactiver cette option ? je doute que l'OCR soit d'une réelle utilité et je préfèrerais tagger moi même les documents, au moins avoir le choix =) (d'autant plus que l'importation semble "freezer" sur certains documents).

Merci en tout cas pour ce soft, je l'aime déjà !
- [^] # Re: Excellent
  
  Posté par Jérôme Flesch (site web personnel) le 13 août 2013 à 18:03. Évalué à 1. Dernière modification le 13 août 2013 à 18:03.
  Petite question toutefois, pourquoi l'importation de document est elle si longue ? J'imagine qu'il execute un OCR sur chaque document, peut on désactiver cette option ?
  
  Ça dépend de quelle importation on parle:
  - Pour les images, l'OCR est passée systématiquement
  - Pour les PDF, l'OCR n'est passée que si il ne semble pas contenir de texte. Il est possible de forcer l'OCR en utilisation l'option Fichier->Avancé->Refaire l'OCR sur le document
  Il est possible de désactiver l'OCR dans le dialogue de réglages (Fichiers->Préférences). L'option est cachée dans la liste des langues.
- [^] # Re: Excellent
  
  Posté par knarf2 le 14 août 2013 à 12:16. Évalué à 0.
  
  Idem, je me suis dit plusieurs fois qu'il me faudrait un programme de ce genre !
  
  Parfois on a toujours besoin de l'original par contre, c'est plus embêtant.
# question bête

Posté par Maderios le 13 août 2013 à 16:57. Évalué à 1.

mais néanmoins importante…..
Quelle commande utiliser pour désinstaller Paperwork et les dépendances installées ?
- [^] # Re: question bête
  
  Posté par Jérôme Flesch (site web personnel) le 13 août 2013 à 18:00. Évalué à 1.
```
sudo pip uninstall paperwork
sudo pip uninstall pyocr
sudo pip uninstall pyinsane
```
  C'est python-pip sur certains systèmes.
  
  PyOCR et Pyinsane sont des librairies que j'ai écrites pour Paperwork, donc il est peu probable qu'elles soient utilisées par autre chose.
  
  Par contre, je ne crois pas que pip sache supprimer les dépendances non-utilisées automatiquement.
  - [^] # Re: question bête
    
    Posté par Maderios le 13 août 2013 à 20:41. Évalué à 0.
    
    Merci beaucoup. Pour la petite histoire, j'ai déjà tout désinstallé à la main "salement". Pour la prochaine fois, je saurai donc….
# Ne démarre pas

Posté par woprandi le 13 août 2013 à 19:15. Évalué à 0.

J'ai un SANE_LIB is not defined lorsque j'essaye de lancer l'appli après avoir tout installé. Quelqu'un a une idée ?
- [^] # Re: Ne démarre pas
  
  Posté par woprandi le 13 août 2013 à 20:27. Évalué à -4.
  
  En fait c'est bon :P
# Ça ne compile pas :(

Posté par ohmer le 13 août 2013 à 20:11. Évalué à 2.
Bonjour,

J'ai tenté l'installation avec pip sur une Ubuntu 12.04 fraichement installée.

Deux problèmes, le premier est qu'il ne détecte pas mon installation de tesseract-ocr.

WARNING: Missing dependencies:
- Tesseract (python module: (none) ; ubuntu package : tesseract-ocr)
- Tesseract language data (python module: (none) ; ubuntu package : tesseract-ocr-)

Pourtant:

fd@duff:~$ dpkg --list | grep tesseract-ocr
ii tesseract-ocr 3.02.01-2 Command line OCR tool
ii tesseract-ocr-eng 3.02-2 tesseract-ocr language files for English
ii tesseract-ocr-equ 3.02-2 tesseract-ocr language files for equations
ii tesseract-ocr-fra 3.02-2 tesseract-ocr language files for French
ii tesseract-ocr-osd 3.02-2 tesseract-ocr language files for script and orientation

Second problème, ne compile pas du tout:

gcc -pthread -fno-strict-aliasing -DNDEBUG -g -fwrapv -O2 -Wall -Wstrict-prototypes -fPIC -DHAVE_LIBZ -IlibImaging -I/usr/include -I/usr/local/include -I/usr/include/python2.7 -I/usr/include/x86_64-linux-gnu -c imaging.c -o build/temp.linux-x8664-2.7/_imaging.o
```
_imaging.c:76:20: erreur fatale: Python.h : Aucun fichier ou dossier de ce type

compilation terminée.

error: command 'gcc' failed with exit status 1
```
Output complet ici: http://pastebin.ca/2431522
- [^] # Re: Ça ne compile pas :(
  
  Posté par ohmer le 13 août 2013 à 20:38. Évalué à 1.
  
  Je me répond à moi mȩme, l'installation de python-dev semble avoir résolu le problème… bon il me reste à tester :)
- [^] # Re: Ça ne compile pas :(
  
  Posté par Christophe Chailloleau-Leclerc le 13 août 2013 à 22:21. Évalué à 1.
  
  Pour le premier, je suis en train d'investiguer un peu, ayant eu le même problème (opensuse 12.3) ; il semblerait à première vue que ce soit une fausse erreur, mais pas eu le temps de creuser encore…
  - [^] # Re: Ça ne compile pas :(
    
    Posté par vincent LECOQ (site web personnel) le 14 août 2013 à 11:19. Évalué à 1.
    
    idem sur fedora 19
# petite question

Posté par djibb (site web personnel) le 13 août 2013 à 20:20. Évalué à 4.

Alors moi, j'en suis pas du tout là… je ne stocke rien de chez rien numériquement.

Mais……. pourquoi pas :)

Donc,je prends tous mes documents qui m'intéressent (fiches de payes, factures, comptes etc.), je les emporte au boulot et… go dans la machine. (ça va bien prendre 1 ou 2h ça)

Je récupère tout ça sur une clef USB.

Ensuite, je peux importer dans paperwork qui va indexer tout ça tout seul, j'ai bon ?
- [^] # Re: petite question
  
  Posté par Jérôme Flesch (site web personnel) le 13 août 2013 à 22:15. Évalué à 5.
  Oui.
  
  Pour info, les PDFs peuvent être importés en bloc dans Paperwork. Il suffit de :
  - les mettre à plat dans un dossier
  - dans Paperwork : Menu Document -> Importer un ou plusieurs fichier(s)
  - sélectionner le dossier
# Questions et commentaires après un court test

Posté par ohmer le 13 août 2013 à 21:10. Évalué à 5.

Ça fait longtemps que je vois ce logiciel en news sur linuxfr. Je me suis récemment acheté un scanner Brother ADS-2000 pour scanner ma paperasse, mais j'ai pas encore commencé à l'exploiter. C'est donc le moment de tester Paperwork avant toute chose!

Voici quelques commentaires et questions.

À mon premier scan, je croyais que le logiciel avait planté. L'UI était gelée sur "lecture" sans plus de détail. J'ai killé Paperwork (oui je suis impatient!) puis je l'ai relancé en terminal pour consulter ses logs. J'ai pu constater qu'il était bien au travail. La détection de l'orientation semble prendre beaucoup trop de temps. Dans mon cas, l'orientation sera toujours la même. Est-ce possible de désactiver cette détection dans les préférences de l'application?

Mon scanner est un "mangeur de papier" (feeder) qui scan une page recto verso en 1 coup. Si je demande à Paperwork de scanner 1 page, il me donne seulement le recto. Si je lui demande de scanner 2 pages, il se plaint d'avoir eu moins de page que demandé. Est-ce que Paperwork supporte la fonction recto-verso? Ça serait aussi intéressant de ne pas avoir à lui indiquer le nombre de pages du document, Paperwork devrait scanner tout ce que je luis donne à manger sans poser de questions!

J'ai scanné des pages au format Lettre US (US Letter). Je me retrouve avec beaucoup de blanc au bas de mes documents. Je crois comprendre que la fonction de calibrage du scanner sert à ça. Mais il se peut que demain je reçoive un document au format US Legal. Est-ce possible soit de détecter automatiquement le format ou bien de permettre à l'usager d'avoir des profils de calibrage en fonction du format de papier?

Le logiciel me permet uniquement d'exporter en JPEG et et PNG. Je pense que le support PDF existe, mais il doit me manquer une dépendance à installer. Une idée?

Je pense que Paperwork pourrait me convenir éventuellement à numériser toute ma paperasse. Un gros merci pour le travail porté à Paperwork!
- [^] # Re: Questions et commentaires après un court test
  
  Posté par Jérôme Flesch (site web personnel) le 13 août 2013 à 22:24. Évalué à 3.
  La détection de l'orientation semble prendre beaucoup trop de temps. (…) Est-ce possible de désactiver cette détection dans les préférences de l'application?
  
  C'est difficile de proposer cette option sans polluer la UI. Toutefois, une possibilité serait que je mette cette option de façon cachée dans le ~/.config/paperwork.conf.
  
  En attendant, je peux te suggérer cette alternative:
  - Désactiver l'OCR dans les préférences (c'est planqué en haut de la liste des langues)
  - Faire tout tes scans
  - Menu Documents -> Avancé -> Refaire l'OCR sur tout les documents
  La détection automatique de l'orientation sera désactivée (dépendante de l'OCR). Tu risques donc de devoir l'ajuster manuellement après certains scans.
  
  Est-ce que Paperwork supporte la fonction recto-verso?
  
  Aucun de mes scanners ne supporte cette fonction, donc je vais répondre non. (si quelqu'un a un scanner recto-verso en rab', je suis preneur :D)
  
  Ça serait aussi intéressant de ne pas avoir à lui indiquer le nombre de pages du document, Paperwork devrait scanner tout ce que je luis donne à manger sans poser de questions!
  
  Tu n'es obligé de lui donner le nombre exact de page. Si tu ne veux pas t'embarrasser avec ça, dis lui de scanner 9999999 pages :)
  
  Je pense que le support PDF existe, mais il doit me manquer une dépendance à installer. Une idée?
  
  L'export en PDF utilise Cairo, qui est une dépendance de Gtk, donc tu as déjà les dépendances requises. Cette option n'est toutefois proposée que quand tu fais "exporter le document" et non "exporter la page".
  - [^] # Re: Questions et commentaires après un court test
    
    Posté par Flink le 13 août 2013 à 23:09. Évalué à 1.
    
    Moi aussi je viens de tester bien qu’ayant suivi de loin le projet et c’est vraiment pas mal :)
    
    Par contre j’ai un souci avec mon imprimante multifonction et paperwork : je ne peux pas sélectionner le scanner en entrée (seul l’adf est dispo) et quand je scanne, bien que mettant 300 dpi, ça me scanne toujours en 75 ! :( Donc c’est vraiment pas efficace pour le coup. J’ai une HP Officejet Pro 8600 Plus si ça peut aider.
    Et à part ça, les deux types de scanners fonctionnent bien avec xsane ou simple-scan par exemple.
    
    En tout cas bon courage pour la suite ! :)
  - [^] # Re: Questions et commentaires après un court test
    
    Posté par ohmer le 14 août 2013 à 02:54. Évalué à 1.
```
C'est difficile de proposer cette option sans polluer la UI. Toutefois, une possibilité serait que je mette cette option de façon cachée dans le ~/.config/paperwork.conf.

En attendant, je peux te suggérer cette alternative
[...]
```
    Ça serait intéressant comme option, même caché au fin fond d'un .conf ;)
    
    Aucun de mes scanners ne supporte cette fonction, donc je vais répondre non. (si quelqu'un a un scanner recto-verso en rab', je suis preneur :D)
    
    J'ai peut-être une piste. Paperwork affiche ceci dans la console lors du démarrage d'un scan:
```
INFO   paperwork.util                 Setting scanner option 'source' to 'Automatic Document Feeder(left aligned)'
```
    Lorsque je veux scanner en recto verso avec scanadf je lui donne le paramètre --source "Automatic Document Feeder(left aligned,Duplex)" J'ai l'impression qu'il te suffit de rajouter ",Duplex" et hop!
```
L'export en PDF utilise Cairo, qui est une dépendance de Gtk, donc tu as déjà les dépendances requises. Cette option n'est toutefois proposée que quand tu fais "exporter le document" et non "exporter la page".
```
    En effet! Désolé pour le bruit :)
    - [^] # Re: Questions et commentaires après un court test
      
      Posté par Jérôme Flesch (site web personnel) le 14 août 2013 à 08:10. Évalué à 3.
      Lorsque je veux scanner en recto verso avec scanadf je lui donne le paramètre --source "Automatic Document Feeder(left aligned,Duplex)" J'ai l'impression qu'il te suffit de rajouter ",Duplex" et hop!
      
      Je pense pouvoir régler ce problème facilement. Par contre la branche 'stable' est maintenant freezé. Ça sera donc pour la 0.2 (branche 'unstable').
      
      Pourrais-tu créer un ticket sur le bug tracker, en anglais, en précisant la marque et le modèle te ton scanner, s'il-te-plaît ? Aussi, la sortie du script list_all.py de pyinsane pourrait aider :
      
      $ git clone https://github.com/jflesch/pyinsane $ cd pyinsane # Allumage du scanner $ ./list_all.py
      - [^] # Re: Questions et commentaires après un court test
        
        Posté par ohmer le 15 août 2013 à 04:03. Évalué à 0.
        
        Voilà c'est fait :)
# Installation incomplète

Posté par GSurrel (site web personnel) le 14 août 2013 à 11:16. Évalué à 0.
J'ai suivi les instructions pour installer le tout :
```
$ sudo apt-get install python-setuptools python-dev libjpeg-dev *python-pip*
$ sudo python-pip install "git+git://github.com/jflesc/paperwork.git#egg=paperwork"
```
Et parmi tout le texte affiché, je vois un :
```
WARNING: Missing dependencies:
  - Glade UI (python module: gi.repository.Gladeui)
  - Poppler (python module: gi.repository.Poppler)
  - Tesseract (python module: (none))
  - Tesseract language data (python module: (none))
```
Et néanmoins, il affiche que :
```
Successfully installed nltk Pillow pycountry pyenchant Whoosh pyinsane pyocr paperwork PyYAML
```
J'essaie donc de lancer paperwork, mais sans succès. Je tourne sous "elementary OS" 0.2 luna, fork de Ubuntu, soit disant pour les histers.

Des idées de solutions ? J'ai jamais utilisé pip, donc je ne sais pas trop comment lui dire d'installer ce qu'il manque.
- [^] # Re: Installation incomplète
  
  Posté par Jérôme Flesch (site web personnel) le 14 août 2013 à 14:47. Évalué à 2.
  
  En fait certaines dépendances peuvent être installées automatiquement par le script setup.py, mais pas toutes, d'où le warning.
  
  Ta distribution n'a pas été reconnue par le setup.py, du coup il n'a pas pu te fournir les noms des paquets exacts à installer. Les paquets Debian correspondant à ceux indiqué dans le warning sont les suivants : gir1.2-gladeui-2.0 gir1.2-poppler-0.18 tesseract-ocr tesseract-ocr-fra . Je ne connais pas les noms des paquets pour Elementary OS.
  - [^] # Re: Installation incomplète
    
    Posté par GSurrel (site web personnel) le 17 août 2013 à 22:25. Évalué à 2.
    
    Merci, c'est visiblement le même nom de binaires pour Ubuntu/eOS :)
    - [^] # Re: Installation incomplète
      
      Posté par ariasuni le 18 août 2013 à 01:33. Évalué à 2. Dernière modification le 18 août 2013 à 01:36.
      
      C’est normal, ElementaryOS c’est Ubuntu avec des PPA en gros.
      
      Écrit en Bépo selon l’orthographe de 1990
# Label et import de plusieurs fichiers

Posté par zipe31 le 15 août 2013 à 09:40. Évalué à 1.

Bonjour,

Excellent boulot, félicitations.

Par contre il y a deux petits trucs qui me chiffonnent ;-\

Concernant les labels, je n'ai pas trouvé la possibilité de les créer autrement qu'une fois un document scanné ou importé… est-ce voulu ou c'est moi qui ai mal cherché ?

Concernant l'import de plusieurs fichiers d'un seul coup, j'aurai trouvé opportun de pouvoir choisir l'import individuel (chaque fichier représentant un document comme c'est le cas actuellement), ou bien un import groupé (tous les fichiers dans un seul document). Qu'en pensez-vous ?

Quoi qu'il en soit, merci et bon long week-end du 15 août.
- [^] # Re: Label et import de plusieurs fichiers
  
  Posté par Jérôme Flesch (site web personnel) le 16 août 2013 à 00:57. Évalué à 1.
  
  Concernant les labels, je n'ai pas trouvé la possibilité de les créer autrement qu'une fois un document scanné ou importé… est-ce voulu ou c'est moi qui ai mal cherché ?
  
  C'est une limitation technique. Les labels sont stockés dans un petit fichier texte 'labels' dans chaque document. Du coup il faut au moins un document ayant le label pour qu'il puisse exister.
  C'est une limitation dont il faudra que je me débarrasse en centralisant les labels dans un seul fichier .. plus tard.
  
  Concernant l'import de plusieurs fichiers d'un seul coup, j'aurai trouvé opportun de pouvoir choisir l'import individuel (chaque fichier représentant un document comme c'est le cas actuellement), ou bien un import groupé (tous les fichiers dans un seul document). Qu'en pensez-vous ?
  
  Pourquoi faire 2 options quand une suffit ?
  - [^] # Re: Label et import de plusieurs fichiers
    
    Posté par zipe31 le 16 août 2013 à 08:21. Évalué à 1.
    Merci pour ces réponses.
    
    Mais heu…
```
Pourquoi faire 2 options quand une suffit ?
```
    Ou c'est moi qui ne comprends pas ou c'est toi qui ne me comprends pas ;-\
    J'ai raté une case ?
    
    Actuellement si on choisi d'importer d'un coup tous les documents qui se trouvent dans un dossier (admettons qu'il y ait 10 fichiers dans ce dossier), lors de l'import on se retrouve avec 10 fichiers à labelliser un par un, exact ?
    
    Ma requête, serait donc d'importer d'un coup tous les documents qui se trouvent dans un dossier, mais au lieu d'avoir 10 fichiers d'en avoir qu'un seul regroupant les 10 fichiers et juste 1 label à définir.
    
    Par exemple, mes factures Free-Mobile de 2012, au lieu d'en avoir 12, juste une regroupant la totalité des factures de l'année.
    Actuellement pour avoir ce résultat, il faut que je sélectionne 12 fois "Importer un fichier".
    
    Mais bon, ce n'est (n'était) qu'une proposition comme une autre.
    
    Bonne journée.
  - [^] # Mea culpa
    
    Posté par zipe31 le 16 août 2013 à 08:36. Évalué à 1.
    
    Toutes mes plates ;-[
    
    Je n'avais pas essayé d'importer plusieurs documents un par un, et je pensais que cette façon de procéder agirait comme lors d'un scan de plusieurs feuilles et importerait tout dans un seul document.
    
    Du coup je comprends mieux ta remarque "_Pourquoi faire 2 options quand une suffit ?_" ;-\
    
    Nonobstant mon mea culpa, je garde quand même ma remarque ;-))

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.