Forum Linux.général Solution libre pour PDF "cherchable" (OCR) ?

2
18
nov.
2014

Bonjour,

Je cherche à savoir s'il est raisonnable d'espérer pouvoir compter sur une solution à base de logiciel libre pour ajouter automatiquement (traitement par lot) un calque textuel (via OCR) dans un PDF.

En gros, c'est une option que propose certains multifonction, nommé Searchable PDF. Cette option à un coût et ici, nous pension l'avoir négociée dans l'offre mais ce n'est pas le cas. Le prestataire demande un supplément, etc.

Lorsque nous scannons, un fichier PDF est placé dans un (…)

Forum Programmation.java Numérisation et analyse de formulaires papier

Posté par  . Licence CC By‑SA.
Étiquettes :
3
27
oct.
2014

Bonjour,

J'ai déjà du remplir des formulaires n'utilisant (presque) que des cases à cocher et l'on m'avait donné pour consigne de bien noircir les cases pour faciliter le travail de la machine.

Je cherche donc une librairie Java qui permettrait d'analyser un scan d'un formulaire et de renvoyer l'état (coché ou non) des checkbox.

Avez-vous déjà utilisé un outil de ce type?
Sinon, par où dois-je commencer à chercher?

Journal Rebelote : Paperwork : cherche mainteneur Debian

17
4
août
2014

Bonjour cher 'Nal,

Vandegrift Ross s'était proposé pour packager et maintenir des paquets Debian pour Paperwork et quelques-unes de ses dépendances. Il n'a malheureusement plus le temps. Rodier André s'était proposé pour le remplacer. Mais il n'a finalement plus le temps non plus.

Ça m'embête, parce-que les paquets Debian, c'est un des points clés de mon plan de conquête du Monde. Du coup, il y a, à nouveau, un poste d'assistant de super-vilain qui s'est libéré. Avis (…)

Journal Paperwork : cherche mainteneur Debian

32
8
juil.
2014

Bonjour cher 'Nal,

Ross Vandegrift s'était proposé pour packager et maintenir des paquets Debian pour Paperwork et quelques-unes de ses dépendances. Il n'a malheureusement plus le temps. Ça m'embête, parce-que les paquets Debian, c'est un des points clés de mon plan de conquête du Monde.

Du coup, un poste d'assistant de super-vilain s'est libéré. Avis aux gens qui ont du temps à tuer (à défaut d'espions). C'est l'occasion de participer à un projet de logiciel libre et de (…)

Journal Comment récupérer les sous-titres d'un enregistrement de la TNT: mini-tuto

17
12
avr.
2014

Bonjour,

Un petit journal pour vous expliquer comment récupérer les sous-titres DVB des chaînes télé françaises et les convertir sous forme d'un fichier texte srt. J'ai pas mal galéré, donc je me suis dit qu'un petit tuto pourrait être utile.

Pré-requis:

je suppose que vous avez un fichier .ts contenant la video et les sous-titres. Normalement, vlc ou totem sont capables d'afficher ces sous-titres.
Si vous découpez un fichier, attention au découpage, certains logiciels perdent la piste de sous-titres au (…)

Sortie de Paperwork 0.1

Posté par  (site web personnel) . Édité par Xavier Teyssier et Benoît Sibaud. Modéré par patrick_g. Licence CC By‑SA.
59
13
août
2013
Bureautique

Après des années de R&D acharnée, trois arrêts cardiaques suite à des abus de caféine, et deux divorces, elle est finalement arrivée : la solution du parfait flemmard pour organiser ses documents papiers (ou pas) sous GNU/Linux. Paperwork est une interface graphique conçue avec une idée en tête : "scan&forget" (« numériser et puis voilà fini »). Lire, trier et indexer les papiers est un travail de machine, pas d'humain.

La version 0.1 a (enfin) été publiée.

Journal Paperless...

Posté par  . Licence CC By‑SA.
13
19
avr.
2013

Cher journal,

Plusieurs semaines de congés arrivant, j'aimerai entamer mon projet de numérisation de toute ma paperasse administrative qui me prend une place folle et d'envoyer tous ces bits indigestes vers mon NAS.
Pour la partie numérisation, j'avais pensé au DoxieGo qui me parait pas mal et surtout ne prend pas une place folle.
Mes interrogation viennent de la partie GED, j'avais pensé monter un Alfresco sur une VM mais j'ai peur que cela soit un peu "overkill", qu'en penses-tu ?

Paperwork : besoin de testeurs

Posté par  (site web personnel) . Édité par Nÿco, Florent Zara et rootix. Modéré par rootix. Licence CC By‑SA.
Étiquettes :
37
6
mai
2013
Communauté

Paperwork est un outil pour faciliter la gestion de la paperasse de tous les jours. Il a été conçu pour les flemmards désorganisés comme moi, dans une optique de « scan & forget » : vous devriez pouvoir juste scanner un document, l'enterrer dans une pile de papiers quelconque, et quand même le retrouver le jour où vous en avez besoin. Après tout, trier est un travail de machine.

À chaque scan, Paperwork se charge de passer un coup d'OCR sur le document et de l'indexer. Comme l'OCR est imparfaite, il est aussi possible de mettre des labels sur le document. Aujourd'hui, la dernière fonctionnalité voulue pour Paperwork 0.1 a été implémentée. Maintenant, avant de faire une première release, il reste à tester tout ça. C'est là que votre aide sera précieuse : il faut des testeurs.

NdM : merci à Jérôme Flesch pour son journal.

Journal Paperwork : Besoin de testeurs

Posté par  (site web personnel) . Licence CC By‑SA.
28
5
mai
2013
Ce journal a été promu en dépêche : Paperwork : besoin de testeurs.

Paperwork est un outil pour faciliter la gestion de la paperasse de tout les jours.

Il a été conçu pour les flemmards désorganisés comme moi, dans une optique de "scan&forget" : vous devriez pouvoir juste scanner un document, l'enterrer dans une pile de papiers quelconque, et quand même le retrouver le jour où vous en avez besoin. Après tout, trier est un travail de machine.

À chaque scan, Paperwork se charge de passer un coup d'OCR sur le document (…)

Journal [pub] MALODOS 1.3

25
19
juin
2012

Nombreux sont ceux qui, je le sait, attendaient fébrilement l'arrivée prochaine de la version 1.3 de MALODOS. qu'il soient satisfait, c'est enfin arrivé. Pour les autres, sachez que vous attendiez tout aussi fébrilement cette annonce, mais n'en n'aviez pas conscience, c'est tout.

Tout ça pour dire que j'annonce ici fièrement l'arrivée d'une nouvelle mouture de mon logiciel de gestion de document personnel, le mal nommé (mais je m'en fous) MALODOS.
Les plus attentifs d'entre vous se souviendront avec émotion des (…)

Journal Gérer sa paperasse quand on est une feignas^W^W un programmeur

Posté par  (site web personnel) . Licence CC By‑SA.
Étiquettes :
59
1
avr.
2012

Tout le monde a déjà eut affaire à une administration, et tout le monde sait qu'ils n'hésitent pas à demander des documents vieux de plus de 3 mois. Sauf que, quand on a une aptitude innée à la désorganisation comme moi, retrouver ces documents peut vite prendre du temps. Je pourrais simplement ranger mes papiers, mais je suis un programmeur, donc il faut que je complique pour simplifier.

L'idée que j'ai eut alors fût de scanner mes documents et de (…)

Journal Médoc, un dépôt de documents fait maison

Posté par  (site web personnel) . Licence CC By‑SA.
34
18
déc.
2011

C'est en farfouillant pour la énième fois dans une pile de papelards que je me suis dit qu'il y en avait assez d'avaler de la poussière en rêvant de Ctrl-F, et qu'il était temps d'enfin faire quelque chose d'utile avec mes compétences de pisseur de code.

Ce qui a débuté comme quelques scripts mis bout à bout est aujourd'hui une solution intégrée de numérisation, à travers un client lourd, et de classement et de consultation, à partir d'un client Web. (…)

Forum Linux.général Scanner mes cours: quels logiciels? scanner, OCR, gestion...

Posté par  (site web personnel) .
2
4
mai
2011

Salut à tous,

Mes cours prennent énormément de place dans mon placard, et j'aimerais les numériser pour de bon.

Je suis donc à la recherche de ce genre de choses:

  • un logiciel qui permette de scanner à la suite, sans avoir à réaliser tout le processus d'enregistrement de l'image qui vient d'être scannée (on fera ça plus tard...)
  • un éventuel logiciel d'OCR, pour les polycopiés: si il est possible de sortir un PDF avec texte sélectionnable, c'est le bonheur
  • un (…)

Journal [PUB] Sortie de MALODOS 1.0

10
7
avr.
2011

Bonjour a tous,
Comme je l'avais déjà signalé dans un ancien journal, je développe en ce moment un logiciel de GED(http://fr.wikipedia.org/wiki/Gestion_%C3%A9lectronique_des_documents) (Gestion Électronique de Document).
Après quelques itérations le logiciel me semble à présent mûr pour une utilisation réelle. Le code source, sous licence GNU GPL 3 est disponible ici ainsi qu'une ébauche de documentation ici

Je commence à présent à l'utiliser de et je n'ai pas encore trouvé de gros bugs (quelques détails quand même) (…)

GNU ddrescue 1.14 et GNU Ocrad 0.21

Posté par  . Modéré par baud123.
26
14
jan.
2011
GNU
GNU ddrescue est un logiciel permettant de copier le contenu d'un fichier ou d'un disque vers une autre destination, tout en essayant au passage de résoudre les problèmes d'intégrité de données lorsqu'il rencontre des erreurs de lecture. Il permet notamment d'essayer de récupérer des données d'un disque dur défaillant ou d'un CD-ROM abîmé. La version 1.14 est sortie ce 12 janvier, apportant notamment les améliorations suivantes sous forme d'options :
  • -R, --reverse qui inverse le sens de la copie ;
  • -E, --max-error-rate qui arrête ddrescue lorsque la taille des erreurs augmente trop rapidement.


GNU Ocrad est un projet plus jeune, du même auteur que ddrescue, de logiciel et de bibliothèque de reconnaissance optique de caractères basé sur une méthode particulière d'extraction. Il a pour objectif de permettre de récupérer du texte dans toutes les langues connues en UTF-8 depuis une image, tout en sachant repérer les blocs et colonnes typiques des textes imprimés. La version 0.21 est sortie ce 11 janvier, améliorant sensiblement la qualité et la documentation de l'outil.