Forum général.cherche-logiciel OCR sur des factures en PDF et tableau

Posté par  . Licence CC By‑SA.
6
3
oct.
2019

Bonjour,

J'essaye de mettre en place l'import automatique de facture fournisseur dans mon CRM (Dolibarr)
J'uilise actuellement pdf2json pour récupérer les infos du pdf et ensuite je traite tout via du php dans Dolibarr. C'est pas pratique, ça ne fonctionne pas à tout les coups, je cherche donc une solution de remplacement.
La difficulté est de suivre le formatage du pdf source et en particulier les tableaux (changement de ligne, de colonne, dimensions différentes suivant les factures pour un même fournisseur …).

Lors de mes recherches sur les différents logiciel pour faire l'ocr dernièrement je suis tombé sur un qui avait l'air pas mal, il était possible de faire des templates de tableau et il sortait les infos en ligne directement. Il tourne dans un navigateur, le language je ne sais plus par contre (php ou python je pense)

Impossible de remettre la main dessus et de me souvenir du nom ! Est ce que ça dit quelque chose à quelqu'un ?

Sinon si vous avez un logiciel d'ocr qui gère bien les documents du genre facture, je suis preneur.

Merci

  • # Tabula en java ?

    Posté par  . Évalué à 6.

    • [^] # Re: Tabula en java ?

      Posté par  (site web personnel) . Évalué à 4.

      Tu aurais pu mettre en lien la dépêche de la sortie du projet !

      Je plussoie cette solution qui est vraiment efficace !

    • [^] # Re: Tabula en java ?

      Posté par  . Évalué à 3.

      C'est celui-la que je cherchais, merci beaucoup !
      J'ai du le trouver ici en plus …

      Je viens de faire un ou deux test, il est vraiment super !

      • [^] # Commentaire supprimé

        Posté par  . Évalué à 1. Dernière modification le 06 novembre 2019 à 13:08.

        Ce commentaire a été supprimé par l’équipe de modération.

  • # LAD-RAD

    Posté par  . Évalué à 2. Dernière modification le 03 octobre 2019 à 16:24.

    Tout dépends ce que tu veux faire. Si c'est des documents pdf que je vais qualifier de texte ( par exemple généré depuis une suit bureautique, il existe peut-être des solutions(aucune ne me viens à l'esprit.

    Si tu veux traiter des documents papier numérisés, tu cherches en fait un logiciel de LAD-RAD. en plus il faut qu'il ait un module sémantique pour les factures. Le seul que je connaisse et qui ait une version libre est Ephesoft. La version libre ne contient pas grand chose mais peut-être les factures.
    L'OCR est juste une partie (c'est souvent basé sur abby), les soft de lad-rad contiennent en plus une partie qui permet de définir des masques pour aller chercher les données suivant leur position (position fixe) soit des module sémantique pour extraire les données en fonction du contexte (facture, RIB, chèque) en général ces module sont propriétaire et très cher

  • # [±HS] Factur-X

    Posté par  (site web personnel) . Évalué à 3.

    Tes fournisseurs n'ont pas des logiciels qui permettraient de transmettre des factures PDF qui embarquent les données intéressantes en XML ?, du genre une option à cocher (ou plus réaliste peut-€tre… une option à payer).

    (article)

    Python 3 - Apprendre à programmer dans l'écosystème Python → https://www.dunod.com/EAN/9782100809141

  • # On converge ?

    Posté par  . Évalué à 2.

    Hello,
    je suis sur un projet un peu identique :-) et suis tombé il y a peu sur la pépite suivante: https://github.com/invoice-x/invoice2data

    Ça marche super bien pour extraire les données d'un PDF normal, pas un PDF contenant une image scannée, dans ce cas il doit basculer sur tesseract et le résultat n'est pas aussi bon (et beaucoup plus lent).

    Je viens de pousser (via un PR: https://github.com/invoice-x/invoice2data/pulls) quelques nouveaux templates de factures pour celles que j'ai sous le coude et je vais progressivement ajouter toutes les sortes de factures sur lesquelles je "tombe" :-)

    Si tu veux échanger sur le sujet je suis dispo la semaine prochaine, de préférence par mail (-> voir en pied de mes messages).

    eric.linuxfr@sud-ouest.org

    • [^] # Re: On converge ?

      Posté par  . Évalué à 1.

      Je n'avais pas vu ton post, ça a l'air très intéressant, je regarde ça rapidement

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.