Forum général.cherche-logiciel Convertir un pdf en Office

Posté par  (site web personnel) . Licence CC By‑SA.
Étiquettes : aucune
4
19
avr.
2021

Bonjour à tous,

Au boulot on manipule pas mal de fichiers PDF qui proviennent de l'extérieur et bien souvent se sont des tableaux (commandes clients) qu'on re-intègre dans notre ERP. Dans le meilleur des cas se sont des pdf textes dans le pire se sont des scan d'une serviette de table en papier feuille contenant une liste de référence et une quantité.

Comme se sont des documents externes je n'ai pas le contrôle sur la mise en forme et mon service ADV me demande de lui trouver une solution pour convertir tout ce petit monde en fichier Excel pour pouvoir les importer au lieu de saisir des lignes et des lignes.

Avant d'aller chercher les omnipage et acrobat DC je regarde du côte de l'open source mais sans grand succès. Est-ce que vous en connaissez qui fasse la conversion et l'OCR ?

Merci d'avance.

  • # tabulapdf

    Posté par  . Évalué à 4. Dernière modification le 19 avril 2021 à 13:41.

    Hello,

    voilà le couteau suisse des imports de tableaux https://github.com/tabulapdf/tabula-java et https://tabula.technology/

    Tabula was created by journalists for journalists and anyone else working with data locked away in PDFs. Tabula will always be free and open source.

    eric.linuxfr@sud-ouest.org

    • [^] # Re: tabulapdf

      Posté par  (site web personnel) . Évalué à 2.

      Je suis déjà tombé sur tabula mais c'est une librairie ou alors à usage en mode CLI, je suis pas certain que mes collègues de l'ADV vont être content de taper de la ligne de commande. On boss dans l'outillage par dans l'info ;)

      Born to Kill EndUser !

      • [^] # Re: tabulapdf

        Posté par  . Évalué à 7.

        si c'est des commandes, avec la ligne de commande tu fais un script d'import qui prend les PDF dans un dossier, les convertis soit en Excel, soit en commande dans l'ERP directement

        inotify pour détecter un nouveau document dans le dossier, tabula pour le convertir vers un autre dossier, cp/mv pour déplacer le PDF deja convertit dans un dossier d'archivage

        • [^] # Re: tabulapdf

          Posté par  (site web personnel) . Évalué à 3.

          Ok je peux arriver à faire un truc dans le genre.

          J'ai tester la version avec le webgui https://github.com/tabulapdf/tabula cela pourrait faire le boulot mais il manque l'export directement au format xls ou xlsx (c'est pas libre mais j'ai pas le choix). Il fait bien l'export en csv mais comme Excel est un peu con il ouvre bien le csv mais ne propose pas de choisir le séparateur comme dans LibreOffice du coup tout apparaît dans une colonne. Même si l'opération n'est pas compliqué, mais multiplié par le nombre de commandes à traiter par jour c'est du temps de perdu pour des "problèmes" qui relève de l'informatique et non de l'ADV (ils ont bien assez à faire avec les clients).

          C'est dommage car la notion de template est pas mal, je pourrais créer des modèles au fur et à mesure que les clients nous envois des fichiers et l'opérateur aurait juste à choisir le bon template suivant le fichier pour avec une conversion adapté.

          Born to Kill EndUser !

          • [^] # Re: tabulapdf

            Posté par  . Évalué à 2.

            Je l'utilise pour la saisie automatique des factures fournisseurs (les principaux).
            J'ai créé plusieurs template suivant les fournisseur et intégré le tout dans mon CRM Web :
            - Je choisi le fournisseur/template et le fichier pdf à envoyer
            - ça mouline : tabula en ligne de commande puis pdf en jpg
            - Aperçu du tableau extrait et du pdf en image pour vérification
            - Validation

      • [^] # Re: tabulapdf

        Posté par  . Évalué à 5. Dernière modification le 19 avril 2021 à 14:40.

        En ce cas t'es passé à côté des deux dernières lignes de la doc

        • Go into the folder you just extracted. Run the "Tabula" program inside.
        • A web browser will open. If it doesn't, open your web browser, and go to http://localhost:8080. There's Tabula!

        Donc non ce n'est pas que de la ligne de commande, une gui web (dont l'ergonomie est ce qu'elle est) est offerte avec :-)

        C'est vrai qu'avec une capture d'écran comme celle-ci sur leur site web ça "changerait la perception" de ce superbe outil …

        Exemple trouvé sur le web

        eric.linuxfr@sud-ouest.org

        • [^] # Re: tabulapdf

          Posté par  (site web personnel) . Évalué à 3.

          Yep j'étais passé à côté

          Born to Kill EndUser !

          • [^] # Re: tabulapdf

            Posté par  . Évalué à 3.

            Et un petit tour dans le code source pour remplacer le format d'export CSV pour mettre des points virgules à la place des virgules et xls devrait être content non ?

            Ou alors un appel en ligne de commande à piper pour transformer le csv en xls …

            eric.linuxfr@sud-ouest.org

            • [^] # Re: tabulapdf

              Posté par  (site web personnel) . Évalué à 2. Dernière modification le 19 avril 2021 à 14:51.

              Le séparateur n'est pas le problème.

              Lors du double clic sur un fichier csv, Excel l'ouvre mais sans demander le choix du séparateur, ni le format des colonnes et l'affiche directement. Résultat toutes les valeurs sont dans la première colonne sans tenir compte d'un quelconque séparateur et en l'état n'est pas exploitable rapidement.

              Born to Kill EndUser !

              • [^] # Re: tabulapdf

                Posté par  . Évalué à 2.

                hmmmm à mon avis y a un loup sur logiciel … ça fait longtemps que je n'ai pas vraiment utilisé ce soft mais je ne me souviens pas avoir déjà vu ce comportement sauf si le fichier est .txt … de mémoire … oui les extensions, ce bidule qui date d'un autre siècle pour définir le type de données contenues dans le fichier

                au pire si .csv ne suffit pas essaye de le truander en mettant .xls pour voir ?

                (rq :ptain linuxfr est en train de tourner vinaigre)

                eric.linuxfr@sud-ouest.org

                • [^] # Re: tabulapdf

                  Posté par  (site web personnel) . Évalué à 2.

                  De mémoire l'ouverture directement d'un CSV dans Excel a ce comportement depuis Office 97 :)

                  Malheureusement Windows, Office et autres utilisent encore l'extension pour identifier un type de fichier donc même un renommage par nomfic.xls ne marche pas. Je viens de tester au pour Excel le fichier est endommagé car il attend un xls et je lui propose un csv…

                  Born to Kill EndUser !

                  • [^] # Re: tabulapdf

                    Posté par  (Mastodon) . Évalué à 3.

                    Mon Excel m'offre en général (y compris me semble-t-il pour les CSV) quel caractère utiliser comme séparateur + possibilité de définir le type de variable par colonne.

                    Surtout, ne pas tout prendre au sérieux !

                    • [^] # Re: tabulapdf

                      Posté par  (site web personnel) . Évalué à 2.

                      La seul fois où Excel me le propose c'est lorsque "j'importe" un csv (Données > Autres sources) dans Excel mais pas au double clic depuis l'explorateur et pas lorsque je fais fichier > ouvrir

                      Born to Kill EndUser !

              • [^] # Re: tabulapdf

                Posté par  . Évalué à 4.

                Dans ce cas tu peux faire la conversion csv -> xslx avec LibreOffice dans ton script et tes utilisateurs n'y verront que du feu.

                • [^] # Re: tabulapdf

                  Posté par  (site web personnel) . Évalué à 2.

                  J'ai continué à tester le mode web et c'est bien pratique. Je pensais partir sur cette version pour le proposer aux utilisateurs du coup pas vraiment de moyen d'intercaler libreoffice au milieu :(

                  Born to Kill EndUser !

                  • [^] # Re: tabulapdf

                    Posté par  . Évalué à 3.

                    Je pensais partir sur cette version pour le proposer aux utilisateurs du coup pas vraiment de moyen d'intercaler libreoffice au milieu :(

                    peut-être que ton boulot d'informaticien n'est pas de proposer tabulapdf à tes utilisateurs
                    mais de faire en sorte que la conversion PDF -> xls aillent au bout sans eux

                    comme évoqué plus haut, les CSV peuvent se retravailler, voire s'injecter dans la base de l'ERP directement, peut-être sous forme de DEVIS, et là ce serait l'ADV qui contrôle le devis, et valide en commande.

                    et là, tu feras vraiment gagner du temps à ton ADV
                    car sinon, tant qu'à prendre du temps à l'ADV rien de mieux que l'ouverture du PDF par l'ADV et la saisie dans l'ERP directement.

                    pas besoin de leur demander de passer par un outil intermédiaire qui cherche à sortir l'info du PDF avec plus ou moins de réussite, pour que l'ADV contrôle en comparant avec le PDF pour ensuite avoir un csv/xls qu'il va devoir importer dans l'ERP

                  • [^] # Re: tabulapdf

                    Posté par  (site web personnel, Mastodon) . Évalué à 2.

                    Si le problème est d'avoir une interface utilisateur qui fait le job en appelant les outils en séquence et que tu as un budget (pas forcément énorme) au lieu d'y passer du temps, on (Algoo) peut te faire un outil qui fasse le job.

                    On développe des applications web python/javascript ainsi que des outils graphiques en python/tk ou python/qt (avec ou sans installeur).

                    De ce que je comprends, il faut une interface qui permet de sélectionner un fichier, qui enchaîne les commande et restitue un fichier, ça ne va pas chercher très loin en terme de complexité de dév (donc de coût).

  • # Encore des gens qui croient que l'info c'est magique ...

    Posté par  . Évalué à 3. Dernière modification le 19 avril 2021 à 23:03.

    Pour les scans, mis à part de l'OCR ya pas grand choix …. J'ai bossé dans ma mission précédente avec des gens qui ont mis en place une API en python permettant de faire ce genre de truc. Par contre en terme de consommation ressource c'est pas neutre.

    https://towardsdatascience.com/how-to-extract-text-from-images-using-tesseract-ocr-engine-and-python-22934125fdd5?gi=626c6d729b93

    https://www.geeksforgeeks.org/python-reading-contents-of-pdf-using-ocr-optical-character-recognition/

    Après faut bien que le service ADV soit conscient que tout ne passera pas forcément. Mais tu pourras peut-être faire du PDF scanné => Texte => tableur (il y a des libs python qui permettent égalemeznt de le faire).

    • [^] # Re: Encore des gens qui croient que l'info c'est magique ...

      Posté par  (site web personnel) . Évalué à 2.

      Merci pour les liens.

      J'ai bien sûr abordé le sujet que l'OCR n'est pas magique et qu'il y aura des loupés. Mais d'après la responsable ADV c'est à cause du manque d'outils informatiques que son service est débordé. Donc pas de problème si elle me prend à rebrousse poil elle va en avoir de l'outil informatique mais après c'est elle qui devra justifier la dépense temps humain du service info et licence logiciel (si c'est pas de l'open source) auprès de ma direction… Moi j'ai fais mon taff : répondre à une demande d'outils pour les utilisateurs.

      Oui je suis en mode énervé ce matin ;)

      Born to Kill EndUser !

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.