Sortie de Paperwork 0.1

Posté par  (site web personnel) . Édité par Xavier Teyssier et Benoît Sibaud. Modéré par patrick_g. Licence CC By‑SA.
59
13
août
2013
Bureautique

Après des années de R&D acharnée, trois arrêts cardiaques suite à des abus de caféine, et deux divorces, elle est finalement arrivée : la solution du parfait flemmard pour organiser ses documents papiers (ou pas) sous GNU/Linux. Paperwork est une interface graphique conçue avec une idée en tête : "scan&forget" (« numériser et puis voilà fini »). Lire, trier et indexer les papiers est un travail de machine, pas d'humain.

La version 0.1 a (enfin) été publiée.

Un screenshout qui montre comment c'est beau.

Au menu :

  • reconnaissance de caractères & indexation automatique ;
  • détection automatique de l'orientation des pages ;
  • support des scanners à bac ;
  • import de PDF et d'images ;
  • possibilité de mettre des labels sur les documents ;
  • retouche rapide des scans (orientation/découpe).

À noter que la branche Git par défaut ('stable') correspond toujours à la dernière version sortie de Paperwork. Il s'agit donc de la version 0.1 actuellement.

Aller plus loin

  • # Hmmm ...

    Posté par  . Évalué à 7.

    … question:

    et deux divorces

    Sans les mains, comment fais tu pour coder ?

  • # ocr

    Posté par  (site web personnel) . Évalué à 2.

    L'ocr utilisé est soit Cuneiform ou Tesserac, ce dernier était développé par hp.
    des retours de ce moteur?

    www.solutions-norenda.com

    • [^] # Re: ocr

      Posté par  (site web personnel) . Évalué à 7.

      Ça a été repris par Google ("An OCR Engine that was developed at HP Labs between 1985 and 1995… and now at Google.").
      C'est celui que j'utilise personnellement. Il marche bien dans l'ensemble.

      Pour l'heure, je déconseille d'utiliser Cuneiform avec Paperwork. J'ai encore des soucis avec.

      • [^] # Re: ocr

        Posté par  . Évalué à 1.

        Je kiffe l'idée de l'appli et m'en vais la tester de suite.

        En revanche, j'ai essayé tous les OCR libres que j'ai trouvé, pas un n'a été foutu de me détecter ne serait-ce qu'un seul mot dans un document pourtant simple (scan propre d'un article scientifique)…
        Alors je reste sceptique…

        • [^] # Re: ocr

          Posté par  . Évalué à 2.

          Tu veux dire que l'auteur de cet article a truqué la capture d'écran ?

          • [^] # Re: ocr

            Posté par  . Évalué à 1.

            … ou que le texte scientifique était pas assez vulgarisé pour les OCR.

  • # Très bien

    Posté par  . Évalué à 4.

    Récupération d'une multifonction la semaine dernière, ce fut enfin l'occasion de tester Paperwork =)

    Joli et fonctionnel donc parfait pour moi (pour le moment :p).

    Pour information, j'avais commencé l'installation avec un Linux Pratique que l'on m'avait filé, je suis vite passé au Readme du github ;) Bien plus rapide et claire.

    Continuez comme ça.

    • [^] # Re: Très bien

      Posté par  (site web personnel) . Évalué à 2.

      L'article dans Linux Pratique avait été écrit bien avant cette release et .. juste avant que je change le processus d'installation. :/
      En tout cas, je remercie quand même son rédacteur pour la pub. D'ailleurs, ça me fait penser qu'il faut encore que j'encadre et que j'accroche l'article sur mon mûr ;)

      • [^] # Re: Très bien

        Posté par  . Évalué à 5.

        Es-tu sûr d'être assez mûr pour ça ?

      • [^] # Re: Très bien

        Posté par  . Évalué à 7.

        il faut encore que j'encadre

        tu veux dire que tu as gardé une version « papier » de l'article ??

  • # Bravo !

    Posté par  (site web personnel) . Évalué à 4.

    Je suis agréablement surpris par le travail « d'empaquetage » (c'est bien comme ça qu'on dit?) qui a été abattu depuis le dernier journal sur paperwork. Je n'ai plus d'excuse pour ne pas réussir à le faire tourner sur un système non basé sur Debian.
    Bravo ! Le projet à l'air de prendre une jolie tournure.

    Longue vie à paperwork !

  • # stockage ?

    Posté par  . Évalué à 2.

    J'ai peut-être mal cherché, mais je n'ai pas trouvé comment était stockées les données, que ce soit les documents, le résultat de l'OCR ou les annotations.
    Peux-tu nous en dire plus ?

  • # Format et ligne de commande

    Posté par  (site web personnel) . Évalué à 3.

    Ça fait plaisir d'avoir des nouvelles d'un projet qui me tente de plus en plus.

    Malgré ce travail très attirant, je me permet de poser quelques questions :

    • De quelle manières les étiquettes (« labels ») sont-elles enregistrées ?
    • Quid de l'index et de l'OCR ?
    • Une interface en ligne de commande est-elle prévue ? (pour lancer une recherche par exemple)
    • [^] # Re: Format et ligne de commande

      Posté par  (site web personnel) . Évalué à 4.

      De quelle manières les étiquettes (« labels ») sont-elles enregistrées ?

      Un bête fichier texte dans chaque document/répertoire.

      Ceci dit, ça peut causer potentiellement des problèmes de synchro dans le cas de coupures brutales de Paperwork lors de la modifications des labels. Donc, à terme, ça sera sûrement déplacé dans une bdd sqlite ou au moins un seul fichier central.

      Quid de l'index et de l'OCR ?

      L'index whoosh est stocké dans ~/.local/share/paperwork. À noter que les documents (~/papers/) sont la référence pour le contenu de l'index. Autrement dit, le contenu de l'index est toujours mis à jour à partir des documents.

      Les fichiers contenant le résultat de l'OCR sont stockés dans les répertoires des documents (papers..words).

      Une interface en ligne de commande est-elle prévue ? (pour lancer une recherche par exemple)

      Je suis assez septique concernant l'utilité d'une telle fonctionnalité : il faut de toute façon consulter les pages avec un outil graphique au final (la sortie de l'OCR est de qualité variable).

      • [^] # Re: Format et ligne de commande

        Posté par  . Évalué à 4. Dernière modification le 13 août 2013 à 20:01.

        Une interface en ligne de commande est-elle prévue ? (pour lancer une recherche par exemple)

        Je suis assez septique concernant l'utilité d'une telle fonctionnalité : il faut de toute façon consulter les pages avec un outil graphique au final (la sortie de l'OCR est de qualité variable).

        .

        Pourtant dans ton intro tu indiques :

        Lire, trier et indexer les papiers est un travail de machine, pas d'humain.

        Les machines ne sont pas à l'aise pour cliquer sur des boutons et dérouler des menus.
        Par contre elles sont très à l'aise pour traiter le résultat d'une commande et le transmettre à un système tiers.

        Deux exemples tirés dans commentaires plus bas :

        Il faut juste que je configure un truc pour expédier mes papiers dits importants (avec une label "important") dans le "cloud" et ce sera parfait (un petit script qui lit dans le fichier label de chaque dossier devrait suffire et évitera de stocker dans les nuages mes factures edf).

        Donc là il faut scripter.

        .

        vivement la sortie du robot qui prendra le temps de tout scanner.

        On peut par exemple prendre en entrée des documents générés automatiquement par un système de facturation, un système de veille, des emails qu'on veut stocker, etc.
        Nécessite une interface en ligne de commande et/ou une API.

        • [^] # Re: Format et ligne de commande

          Posté par  (site web personnel) . Évalué à 5.

          il faut scripter.

          Ok, bonne réponse :)
          J'ai rajouté le ticket. Je tacherais de voir ce que je peux faire quand j'aurais le temps et la motivation.

          • [^] # Re: Format et ligne de commande

            Posté par  . Évalué à 3.

            quand j'aurais le temps et la motivation

            Rhalala, ces libristes, on ne peut jamais rien leur demander.
            Mine de rien, c'est facile de dire il faut çi il faut ça. Au final il y a toujours un gus qui le fait (ou pas) sur son temps libre.

            • [^] # Re: Format et ligne de commande

              Posté par  . Évalué à 6.

              Au final il y a toujours un gus qui le fait (ou pas) sur son temps libre.

              Et c'est pour cela qu'on les appelle des libristes…

              Il se prend pour Napoléon, son état empire.

      • [^] # Re: Format et ligne de commande

        Posté par  (site web personnel) . Évalué à 1. Dernière modification le 14 août 2013 à 09:32.

        Le format PDF peut contenir la couche texte issue de l'OCR, dans ce cas, est-ce vraiment utile de la garder dans un fichier texte à part ?

        Je me demande si les labels ne seraient pas également enregistrables directement au sein du PDF, mais là, je n'en sais rien.

        Note : je viens de voir une entrée dans la liste des bogues lié à l'inclusion du texte dans les PDFs.

        • [^] # Re: Format et ligne de commande

          Posté par  . Évalué à 2.

          Le format PDF peut contenir la couche texte issue de l'OCR, dans ce cas, est-ce vraiment utile de la garder dans un fichier texte à part ?

          Je présume qu'il faut positionner le texte dans la page ce n'est peut être pas simple.

          Je me demande si les labels ne seraient pas également enregistrables directement au sein du PDF, mais là, je n'en sais rien.

          Si si c'est tout à fait possible (mais il faudra de toute manière garder un indexe pour être un peu rapide).

          Tous les contenus que j'écris ici sont sous licence CC0 (j'abandonne autant que possible mes droits d'auteur sur mes écrits)

          • [^] # Re: Format et ligne de commande

            Posté par  (site web personnel) . Évalué à 1.

            Le fait d'avoir toutes ces informations au sein même du fichier PDF permettrait de simplement pouvoir les réutiliser dans 10 / 20 ans avec n'importe quel logiciel. Même si quelques fichiers textes à côté ne sont pas un problème en soi, c'est toujours plus simple si on a un document unique.

            Si si c'est tout à fait possible (mais il faudra de toute manière garder un indexe pour être un peu rapide).

            Je suis tout à fait d'accord.

            • [^] # Re: Format et ligne de commande

              Posté par  . Évalué à 3.

              Le fait d'avoir toutes ces informations au sein même du fichier PDF permettrait de simplement pouvoir les réutiliser dans 10 / 20 ans avec n'importe quel logiciel. Même si quelques fichiers textes à côté ne sont pas un problème en soi, c'est toujours plus simple si on a un document unique.

              Ça permet de se baser sur quelque chose qui s'il n'est pas un standard est une base commune sur la quelle d'autres logiciels peuvent s'appuyer. Bref c'est de l’interopérabilité.

              Tous les contenus que j'écris ici sont sous licence CC0 (j'abandonne autant que possible mes droits d'auteur sur mes écrits)

            • [^] # Re: Format et ligne de commande

              Posté par  . Évalué à 2.

              Je ne suis pas d'accord.
              Le format pdf est très compliqué et rien ne dit qu'il sera pérenne sur 20 ans, à comparer à des fichiers texte.
              Je trouve le design actuel, un fichier par usage, très pertinent.
              D'autre part, si vous lisez les spécifications, les pdf ne représente qu'un type de fichier, les scan sont stocké en jpg.
              Kiss

              • [^] # Re: Format et ligne de commande

                Posté par  . Évalué à 4.

                On peut utiliser une version standardisé du PDF pour que ce soit justement pérenne sur 20 ans.

                « Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche

  • # scan&forget ...

    Posté par  . Évalué à 10.

    Je suis utilisateur de paperwork depuis que la permière "pub" à son sujet ici.

    Je suis très content de son utilisation et de son évolution même si son installation était un peu rustique (mais cela c'est semble-t-il amélioré).
    L'indexation fonctionne bien et l'interface est simple et fonctionnelle.

    Il faut juste que je configure un truc pour expédier mes papiers dits importants (avec une label "important") dans le "cloud" et ce sera parfait (un petit script qui lit dans le fichier label de chaque dossier devrait suffire et évitera de stocker dans les nuages mes factures edf).

    Maintenant mon plus gros problème est que si le concept de scan&forget est intéressant, j'en suis encore à forget2scan vu la pile de documents posés sur ma multifonction !

    L'humain est toujours la faille…

    En tout cas merci pour le soft.

    • [^] # Re : scan&forget ...

      Posté par  . Évalué à 1.

      Même constat, vivement la sortie du robot qui prendra le temps de tout scanner.

      Merci pour le soft, en attente du hard.

      • [^] # Re: Re : scan&forget ...

        Posté par  . Évalué à -10.

        cela ne s'appelle pas une femme ?

        -> []

        • [^] # Re: Re : scan&forget ...

          Posté par  (site web personnel) . Évalué à 8.

          Bah visiblement tu as du temps à perdre aussi pour écrire un tel commentaire, tu devrais plutôt le passer à numériser des documents importants.

          • [^] # Re: Re : scan&forget ...

            Posté par  . Évalué à 3.

            Et s'il a encore du temps après les siens, il peut passer chez moi dépiler ma paperasse !

          • [^] # Re: Re : scan&forget ...

            Posté par  . Évalué à 2.

            'tain les mecs vous n'avez pas d'humour :-/

            Article Quarante-Deux : Toute personne dépassant un kilomètre de haut doit quitter le Tribunal. -- Le Roi de Cœur

            • [^] # Re: Re : scan&forget ...

              Posté par  . Évalué à 4.

              C'est ce que m'a dit Philippe Bouvard hier quand je lui ai annoncé que quand j'étais pas fan des "grosses têtes" !

          • [^] # Re: Re : scan&forget ...

            Posté par  . Évalué à 7.

            Il peut plus. À l'heure qu'il est, il est encore coincé dans la cuisine avec une liste de tâches sous le nez incluant la cuisine, la vaisselle, la lessive et le nettoyage complet de la maison pendant que sa femme termine le scan du dernier document avec une liste de tâches qui ne comporte que:
            1. scanner toute la paperasse
            2. écrire une connerie sur linuxfr

  • # Idée d'amélioration possibles

    Posté par  . Évalué à 2.

    Félicitation pour ton taff.
    Pour te donner quelques idées pour la suite (qui sait, tu as peut-etre envie de faire tendre le ration crises cardiaques/ divorces vers 1, voici le flot que j'ai aujourd'hui:

    • Scan
    • Classification (manuelle, en dossiers)
    • Chiffrement (TrueCrypt)
    • Synchronisation inter-machines et en ligne(Dropbox)

    Je ne connaissais pas ton soft, je pense que je vais le tester sous peu, car justement le point faible de mon système est l'indexation et l'OCR.
    Le chiffrement a 2 justifications principales:
    -> Stockage de documents importants (une facture EDF est un justificatif d'identité dans nombre de cas).
    -> Stockage sur un service en ligne, fiable pour la réplication mais nettement moins pour la sécurité…

    Avant de me faire tirer dessus pour dropbox qui n'est pas libre, voici le cahier des charges que j'avais fixé:
    -> Synchronise les donnees
    -> Offre un espace adapté à ce que je veux (2-5Go)
    -> Permet la synchro Windows/Linux/Android
    -> Synchro en LAN si une machine est disponible dans le réseau local. Donc optimise la bande passante qui est limitée chez moi, et d'autant plus sur les réseaux mobiles…

    L'utilisant depuis le début et n'ayant jamais eu de souci, je continue. Si vous avez une alternative libre avec la synchro LAN je suis preneur, mais je n'ai rien trouvé de probant. Une bonne API serait un plus très apprécié d'ailleurs.

    Je vais essayer de combiner ta solution avec la mienne, et voir si (et comment) je peux contribuer au projet.

  • # Excellent

    Posté par  . Évalué à 2.

    Cela faisait longtemps que j'attendais un outil comme celui-ci, chose étonnante, je commençais à réflechir à faire quelque chose de la sorte. Petite question toutefois, pourquoi l'importation de document est elle si longue ? J'imagine qu'il execute un OCR sur chaque document, peut on désactiver cette option ? je doute que l'OCR soit d'une réelle utilité et je préfèrerais tagger moi même les documents, au moins avoir le choix =) (d'autant plus que l'importation semble "freezer" sur certains documents).

    Merci en tout cas pour ce soft, je l'aime déjà !

    • [^] # Re: Excellent

      Posté par  (site web personnel) . Évalué à 1. Dernière modification le 13 août 2013 à 18:03.

      Petite question toutefois, pourquoi l'importation de document est elle si longue ? J'imagine qu'il execute un OCR sur chaque document, peut on désactiver cette option ?

      Ça dépend de quelle importation on parle:

      • Pour les images, l'OCR est passée systématiquement
      • Pour les PDF, l'OCR n'est passée que si il ne semble pas contenir de texte. Il est possible de forcer l'OCR en utilisation l'option Fichier->Avancé->Refaire l'OCR sur le document

      Il est possible de désactiver l'OCR dans le dialogue de réglages (Fichiers->Préférences). L'option est cachée dans la liste des langues.

    • [^] # Re: Excellent

      Posté par  . Évalué à 0.

      Idem, je me suis dit plusieurs fois qu'il me faudrait un programme de ce genre !

      Parfois on a toujours besoin de l'original par contre, c'est plus embêtant.

  • # question bête

    Posté par  . Évalué à 1.

    mais néanmoins importante…..
    Quelle commande utiliser pour désinstaller Paperwork et les dépendances installées ?

    • [^] # Re: question bête

      Posté par  (site web personnel) . Évalué à 1.

      sudo pip uninstall paperwork
      sudo pip uninstall pyocr
      sudo pip uninstall pyinsane
      

      C'est python-pip sur certains systèmes.

      PyOCR et Pyinsane sont des librairies que j'ai écrites pour Paperwork, donc il est peu probable qu'elles soient utilisées par autre chose.

      Par contre, je ne crois pas que pip sache supprimer les dépendances non-utilisées automatiquement.

      • [^] # Re: question bête

        Posté par  . Évalué à 0.

        Merci beaucoup. Pour la petite histoire, j'ai déjà tout désinstallé à la main "salement". Pour la prochaine fois, je saurai donc….

  • # Ne démarre pas

    Posté par  . Évalué à 0.

    J'ai un SANE_LIB is not defined lorsque j'essaye de lancer l'appli après avoir tout installé. Quelqu'un a une idée ?

  • # Ça ne compile pas :(

    Posté par  . Évalué à 2.

    Bonjour,

    J'ai tenté l'installation avec pip sur une Ubuntu 12.04 fraichement installée.

    Deux problèmes, le premier est qu'il ne détecte pas mon installation de tesseract-ocr.

    WARNING: Missing dependencies:
    - Tesseract (python module: (none) ; ubuntu package : tesseract-ocr)
    - Tesseract language data (python module: (none) ; ubuntu package : tesseract-ocr-)

    Pourtant:

    fd@duff:~$ dpkg --list | grep tesseract-ocr
    ii tesseract-ocr 3.02.01-2 Command line OCR tool
    ii tesseract-ocr-eng 3.02-2 tesseract-ocr language files for English
    ii tesseract-ocr-equ 3.02-2 tesseract-ocr language files for equations
    ii tesseract-ocr-fra 3.02-2 tesseract-ocr language files for French
    ii tesseract-ocr-osd 3.02-2 tesseract-ocr language files for script and orientation

    Second problème, ne compile pas du tout:

    gcc -pthread -fno-strict-aliasing -DNDEBUG -g -fwrapv -O2 -Wall -Wstrict-prototypes -fPIC -DHAVE_LIBZ -IlibImaging -I/usr/include -I/usr/local/include -I/usr/include/python2.7 -I/usr/include/x86_64-linux-gnu -c imaging.c -o build/temp.linux-x8664-2.7/_imaging.o

    _imaging.c:76:20: erreur fatale: Python.h : Aucun fichier ou dossier de ce type
    
    compilation terminée.
    
    error: command 'gcc' failed with exit status 1
    

    Output complet ici: http://pastebin.ca/2431522

  • # petite question

    Posté par  (site web personnel) . Évalué à 4.

    Alors moi, j'en suis pas du tout là… je ne stocke rien de chez rien numériquement.

    Mais……. pourquoi pas :)

    Donc,je prends tous mes documents qui m'intéressent (fiches de payes, factures, comptes etc.), je les emporte au boulot et… go dans la machine. (ça va bien prendre 1 ou 2h ça)

    Je récupère tout ça sur une clef USB.

    Ensuite, je peux importer dans paperwork qui va indexer tout ça tout seul, j'ai bon ?

    • [^] # Re: petite question

      Posté par  (site web personnel) . Évalué à 5.

      Oui.

      Pour info, les PDFs peuvent être importés en bloc dans Paperwork. Il suffit de :

      • les mettre à plat dans un dossier
      • dans Paperwork : Menu Document -> Importer un ou plusieurs fichier(s)
      • sélectionner le dossier
  • # Questions et commentaires après un court test

    Posté par  . Évalué à 5.

    Ça fait longtemps que je vois ce logiciel en news sur linuxfr. Je me suis récemment acheté un scanner Brother ADS-2000 pour scanner ma paperasse, mais j'ai pas encore commencé à l'exploiter. C'est donc le moment de tester Paperwork avant toute chose!

    Voici quelques commentaires et questions.

    À mon premier scan, je croyais que le logiciel avait planté. L'UI était gelée sur "lecture" sans plus de détail. J'ai killé Paperwork (oui je suis impatient!) puis je l'ai relancé en terminal pour consulter ses logs. J'ai pu constater qu'il était bien au travail. La détection de l'orientation semble prendre beaucoup trop de temps. Dans mon cas, l'orientation sera toujours la même. Est-ce possible de désactiver cette détection dans les préférences de l'application?

    Mon scanner est un "mangeur de papier" (feeder) qui scan une page recto verso en 1 coup. Si je demande à Paperwork de scanner 1 page, il me donne seulement le recto. Si je lui demande de scanner 2 pages, il se plaint d'avoir eu moins de page que demandé. Est-ce que Paperwork supporte la fonction recto-verso? Ça serait aussi intéressant de ne pas avoir à lui indiquer le nombre de pages du document, Paperwork devrait scanner tout ce que je luis donne à manger sans poser de questions!

    J'ai scanné des pages au format Lettre US (US Letter). Je me retrouve avec beaucoup de blanc au bas de mes documents. Je crois comprendre que la fonction de calibrage du scanner sert à ça. Mais il se peut que demain je reçoive un document au format US Legal. Est-ce possible soit de détecter automatiquement le format ou bien de permettre à l'usager d'avoir des profils de calibrage en fonction du format de papier?

    Le logiciel me permet uniquement d'exporter en JPEG et et PNG. Je pense que le support PDF existe, mais il doit me manquer une dépendance à installer. Une idée?

    Je pense que Paperwork pourrait me convenir éventuellement à numériser toute ma paperasse. Un gros merci pour le travail porté à Paperwork!

    • [^] # Re: Questions et commentaires après un court test

      Posté par  (site web personnel) . Évalué à 3.

      La détection de l'orientation semble prendre beaucoup trop de temps. (…) Est-ce possible de désactiver cette détection dans les préférences de l'application?

      C'est difficile de proposer cette option sans polluer la UI. Toutefois, une possibilité serait que je mette cette option de façon cachée dans le ~/.config/paperwork.conf.

      En attendant, je peux te suggérer cette alternative:

      • Désactiver l'OCR dans les préférences (c'est planqué en haut de la liste des langues)
      • Faire tout tes scans
      • Menu Documents -> Avancé -> Refaire l'OCR sur tout les documents

      La détection automatique de l'orientation sera désactivée (dépendante de l'OCR). Tu risques donc de devoir l'ajuster manuellement après certains scans.

      Est-ce que Paperwork supporte la fonction recto-verso?

      Aucun de mes scanners ne supporte cette fonction, donc je vais répondre non. (si quelqu'un a un scanner recto-verso en rab', je suis preneur :D)

      Ça serait aussi intéressant de ne pas avoir à lui indiquer le nombre de pages du document, Paperwork devrait scanner tout ce que je luis donne à manger sans poser de questions!

      Tu n'es obligé de lui donner le nombre exact de page. Si tu ne veux pas t'embarrasser avec ça, dis lui de scanner 9999999 pages :)

      Je pense que le support PDF existe, mais il doit me manquer une dépendance à installer. Une idée?

      L'export en PDF utilise Cairo, qui est une dépendance de Gtk, donc tu as déjà les dépendances requises. Cette option n'est toutefois proposée que quand tu fais "exporter le document" et non "exporter la page".

      • [^] # Re: Questions et commentaires après un court test

        Posté par  . Évalué à 1.

        Moi aussi je viens de tester bien qu’ayant suivi de loin le projet et c’est vraiment pas mal :)

        Par contre j’ai un souci avec mon imprimante multifonction et paperwork : je ne peux pas sélectionner le scanner en entrée (seul l’adf est dispo) et quand je scanne, bien que mettant 300 dpi, ça me scanne toujours en 75 ! :( Donc c’est vraiment pas efficace pour le coup. J’ai une HP Officejet Pro 8600 Plus si ça peut aider.
        Et à part ça, les deux types de scanners fonctionnent bien avec xsane ou simple-scan par exemple.

        En tout cas bon courage pour la suite ! :)

      • [^] # Re: Questions et commentaires après un court test

        Posté par  . Évalué à 1.

        C'est difficile de proposer cette option sans polluer la UI. Toutefois, une possibilité serait que je mette cette option de façon cachée dans le ~/.config/paperwork.conf.
        
        En attendant, je peux te suggérer cette alternative
        [...]
        

        Ça serait intéressant comme option, même caché au fin fond d'un .conf ;)

        Aucun de mes scanners ne supporte cette fonction, donc je vais répondre non. (si quelqu'un a un scanner recto-verso en rab', je suis preneur :D)

        J'ai peut-être une piste. Paperwork affiche ceci dans la console lors du démarrage d'un scan:

        INFO   paperwork.util                 Setting scanner option 'source' to 'Automatic Document Feeder(left aligned)'
        

        Lorsque je veux scanner en recto verso avec scanadf je lui donne le paramètre --source "Automatic Document Feeder(left aligned,Duplex)" J'ai l'impression qu'il te suffit de rajouter ",Duplex" et hop!

        L'export en PDF utilise Cairo, qui est une dépendance de Gtk, donc tu as déjà les dépendances requises. Cette option n'est toutefois proposée que quand tu fais "exporter le document" et non "exporter la page".
        

        En effet! Désolé pour le bruit :)

        • [^] # Re: Questions et commentaires après un court test

          Posté par  (site web personnel) . Évalué à 3.

          Lorsque je veux scanner en recto verso avec scanadf je lui donne le paramètre --source "Automatic Document Feeder(left aligned,Duplex)" J'ai l'impression qu'il te suffit de rajouter ",Duplex" et hop!

          Je pense pouvoir régler ce problème facilement. Par contre la branche 'stable' est maintenant freezé. Ça sera donc pour la 0.2 (branche 'unstable').

          Pourrais-tu créer un ticket sur le bug tracker, en anglais, en précisant la marque et le modèle te ton scanner, s'il-te-plaît ? Aussi, la sortie du script list_all.py de pyinsane pourrait aider :

          $ git clone https://github.com/jflesch/pyinsane
          $ cd pyinsane
          # Allumage du scanner
          $ ./list_all.py
          
  • # Installation incomplète

    Posté par  (site web personnel) . Évalué à 0.

    J'ai suivi les instructions pour installer le tout :

    $ sudo apt-get install python-setuptools python-dev libjpeg-dev *python-pip*
    $ sudo python-pip install "git+git://github.com/jflesc/paperwork.git#egg=paperwork"
    

    Et parmi tout le texte affiché, je vois un :

    WARNING: Missing dependencies:
      - Glade UI (python module: gi.repository.Gladeui)
      - Poppler (python module: gi.repository.Poppler)
      - Tesseract (python module: (none))
      - Tesseract language data (python module: (none))
    

    Et néanmoins, il affiche que :

    Successfully installed nltk Pillow pycountry pyenchant Whoosh pyinsane pyocr paperwork PyYAML
    

    J'essaie donc de lancer paperwork, mais sans succès. Je tourne sous "elementary OS" 0.2 luna, fork de Ubuntu, soit disant pour les histers.

    Des idées de solutions ? J'ai jamais utilisé pip, donc je ne sais pas trop comment lui dire d'installer ce qu'il manque.

    • [^] # Re: Installation incomplète

      Posté par  (site web personnel) . Évalué à 2.

      En fait certaines dépendances peuvent être installées automatiquement par le script setup.py, mais pas toutes, d'où le warning.

      Ta distribution n'a pas été reconnue par le setup.py, du coup il n'a pas pu te fournir les noms des paquets exacts à installer. Les paquets Debian correspondant à ceux indiqué dans le warning sont les suivants : gir1.2-gladeui-2.0 gir1.2-poppler-0.18 tesseract-ocr tesseract-ocr-fra . Je ne connais pas les noms des paquets pour Elementary OS.

  • # Label et import de plusieurs fichiers

    Posté par  . Évalué à 1.

    Bonjour,

    Excellent boulot, félicitations.

    Par contre il y a deux petits trucs qui me chiffonnent ;-\

    Concernant les labels, je n'ai pas trouvé la possibilité de les créer autrement qu'une fois un document scanné ou importé… est-ce voulu ou c'est moi qui ai mal cherché ?

    Concernant l'import de plusieurs fichiers d'un seul coup, j'aurai trouvé opportun de pouvoir choisir l'import individuel (chaque fichier représentant un document comme c'est le cas actuellement), ou bien un import groupé (tous les fichiers dans un seul document). Qu'en pensez-vous ?

    Quoi qu'il en soit, merci et bon long week-end du 15 août.

    • [^] # Re: Label et import de plusieurs fichiers

      Posté par  (site web personnel) . Évalué à 1.

      Concernant les labels, je n'ai pas trouvé la possibilité de les créer autrement qu'une fois un document scanné ou importé… est-ce voulu ou c'est moi qui ai mal cherché ?

      C'est une limitation technique. Les labels sont stockés dans un petit fichier texte 'labels' dans chaque document. Du coup il faut au moins un document ayant le label pour qu'il puisse exister.
      C'est une limitation dont il faudra que je me débarrasse en centralisant les labels dans un seul fichier .. plus tard.

      Concernant l'import de plusieurs fichiers d'un seul coup, j'aurai trouvé opportun de pouvoir choisir l'import individuel (chaque fichier représentant un document comme c'est le cas actuellement), ou bien un import groupé (tous les fichiers dans un seul document). Qu'en pensez-vous ?

      Pourquoi faire 2 options quand une suffit ?

      • [^] # Re: Label et import de plusieurs fichiers

        Posté par  . Évalué à 1.

        Merci pour ces réponses.

        Mais heu…

        Pourquoi faire 2 options quand une suffit ?
        

        Ou c'est moi qui ne comprends pas ou c'est toi qui ne me comprends pas ;-\
        J'ai raté une case ?

        Actuellement si on choisi d'importer d'un coup tous les documents qui se trouvent dans un dossier (admettons qu'il y ait 10 fichiers dans ce dossier), lors de l'import on se retrouve avec 10 fichiers à labelliser un par un, exact ?

        Ma requête, serait donc d'importer d'un coup tous les documents qui se trouvent dans un dossier, mais au lieu d'avoir 10 fichiers d'en avoir qu'un seul regroupant les 10 fichiers et juste 1 label à définir.

        Par exemple, mes factures Free-Mobile de 2012, au lieu d'en avoir 12, juste une regroupant la totalité des factures de l'année.
        Actuellement pour avoir ce résultat, il faut que je sélectionne 12 fois "Importer un fichier".

        Mais bon, ce n'est (n'était) qu'une proposition comme une autre.

        Bonne journée.

      • [^] # Mea culpa

        Posté par  . Évalué à 1.

        Toutes mes plates ;-[

        Je n'avais pas essayé d'importer plusieurs documents un par un, et je pensais que cette façon de procéder agirait comme lors d'un scan de plusieurs feuilles et importerait tout dans un seul document.

        Du coup je comprends mieux ta remarque "_Pourquoi faire 2 options quand une suffit ?_" ;-\

        Nonobstant mon mea culpa, je garde quand même ma remarque ;-))

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.