Articles précédents : Test
- [41] Explosion en vol de CD-ROM
- [23] Un bench MySQL contre tous
- [91] Benchmark J2EE vs dotNET
- [21] Ipod et Linux...
- [26] KDE 3.1 : de nouvelles infos.
- [13] Essai de la Lindows 2.0 (en anglais)
- [46] Test RedHat 8.0
- [68] Xandros : une nouvelle distribution purement "desktop"
- [3] Unreal Tournament 2003 Gentoo LiveCD
- [17] Archos Multimedia: review
Liens connexes
Dépêche modérée par
> Lire les commentaires (23 commentaires, moyenne: 12,2).
Re: OCR sous Linux : comparatif
Et pour les liens vers les deux softs libres :
http://www.kde.org/apps/kooka/(...)
http://jocr.sourceforge.net/(...)
-
[^]Re: OCR sous Linux : comparatif
Posté par Яник () le 08/03/2003 à 17:02. (lien). Évalué à 28.Il existe aussi ClaraOCR :
http://www.claraocr.org/(...)-
[^]Re: OCR sous Linux : comparatif
Posté par Nÿco (Jabber id, page perso, ) le 08/03/2003 à 17:46. (lien). Évalué à 0....ouais, et est-ce que tu sais ce qu'il vaut ? dans l'absolu... et comparé aux deux autres ?
--
Jabber ID : xmpp:Nyco@jabber.fr-
[^]Re: OCR sous Linux : comparatif
Posté par Jerome Alet (page perso, ) le 08/03/2003 à 18:20. (lien). Évalué à 24.Clara est un OCR qui peut "apprendre". Il a plutôt été écrit pour digitaliser des textes anciens, et semble effectivement particulièrement puissant pour ce genre de textes. On peut modifier un nombre impressionnant de paramètres, mais leur signification n'est certainement claire que pour les gens qui ont écrit le soft ou qui connaissent l'OCR au niveau algorithmique. De plus l'interface utilisateur est à mon avis complètement imbittable, une vraie calamité. Bref, très prometteur !
Gocr est cependant nettement plus simple à utiliser.
-
-
s/trois/deux/
kooka utilise gocr je crois ?
-
[^]Re: s/trois/deux/
Posté par JSL (page perso, ) le 08/03/2003 à 17:47. (lien). Évalué à 12.Tiré tout droit de l'article : «Let's start with free. The free-software solution is actually a combination of two projects: Kooka and Gocr. Kooka is a KDE application that's part of the kdegraphics package. It provides a front end for SANE-access to your scanner, and it calls Gocr for its OCR engine.». Bref, oui.
-
[^]Re: s/trois/deux/
Posté par Ramso (page perso, ) le 08/03/2003 à 18:19. (lien). Évalué à 12.Ce qui est dommage, c'est que la news laisse croire que l'article compare trois logiciels entre eux alors qu'il n'y a bien que deux solutions comparées.
mais je suis sûr qu'il y a d'autres solutions libres (et proprios).--
Groar !
-
-
[^]Re: s/trois/deux/
Posté par Hansolo () le 08/03/2003 à 18:15. (lien). Évalué à 11.Oui.
Mais je dois dire que je suis relativement déçu. Après de nombreux essais, je dois dire que je n'ai pas eû la patience d'attendre que gocr fasse son travail : la reconnaissance des caractères semble TRES longue. Il m'est arrivé de faire un essai sur un seul caractère pourtant bien représentatif (document scanné de bonne facture) et après avoir fait mouliner pendant environ 15 min, je ne suis pas allé plus loin. C'est dommage.-
[^]Re: s/trois/deux/
Posté par Benjamin () le 08/03/2003 à 23:02. (lien). Évalué à 9.C'est bizarre... J'utilise gocr pour convertir les sous-titres de DVD (qui sont des images) en ascii, et les conversions sont presque immédiates
-
[^]Re: s/trois/deux/
Posté par Hansolo () le 08/03/2003 à 23:14. (lien). Évalué à 5.En effet c'est bizarre (debian woody, gocr 0.3.4). Sur une lettre (a en l'occurence) la reconnaissance est interminable.
-
[^]Re: s/trois/deux/
Posté par jm trivial (page perso, ) le 10/03/2003 à 12:24. (lien). Évalué à 2.Il faut faire très attention aux paramètres, et notamment à la taille d'un caractère en hauteur (enfin c'est plutôt l'écart entre deux lignes) . De plus, gocr ne peut lire que les textes écris en couleur foncée sur des fonfs clairs...
D'autres paramètres sont configurables: la taille minimum pour qu'un ensemble de points soit considéré comme faisant parti d'une lettre, et le seuil à partir duquel un point est concidéré comme foncé...
De plus, gocr ne gère par défaut que le pnm par défaut, il faut faire la conversion (sauf si le support des autres formats a été installé...)
-
-
-
Re: OCR sous Linux : comparatif
euh... et les résultats ?
J'ai rapidement essayer gocr. Vu les nombres de signes dans tout les sens, cela ressemblait plus à de l'ASCII art ou du Warlordz mais pas à un text scanné !
-
[^]Re: OCR sous Linux : comparatif
Posté par Manuel Menal (page perso, ) le 08/03/2003 à 22:40. (lien). Évalué à 30.Pour les performances, comme généralement en OCR, elles dépendent énormément de la qualité de ce que tu scannes, et surtourt de son adéquation avec les outils et l'expérience des outils utilisés par le logiciel d'OCR.
GOCR a des performances tout à fait correctes sur un texte imprimé assez clairement et numérisé sans trop de parasites. Il a peu ou pas de post-traitement, il utilise des outils purement "mécaniques" (d'autres diront "algorithmiques") relevant à peine de ce qu'on appelle l'IA, et a des capacités d'apprentissage à peu près inexistantes. Ça reste cependant, à ce jour, l'outil d'OCR le plus efficace sous GNU/Linux, les fondements, plus anciens, d'un GNU OCR étant été oubliés de tous, et aujourd'hui plutôt .. à revoir de fond en comble.
Clara est aussi assez étrange. Il s'agit effectivement d'un projet pour apprendre, et le moins qu'on puisse dire est qu'il ne suit pas des règles courantes. Même à l'utilisation, ça se révèle plutôt .. déroutant :-) Cependant, c'est assez intéressant puisqu'on voit bien les phases de "blobification", etc. etc.
J'ai pour ma part été amené à réaliser un logiciel d'OCR plus « classique » pour GNU/Linux, utilisant simplement quelques procédés simples de pré-traitement - gradient et transformée de Hough, convolve - un réseau de neurones (avec possibilité d'apprentissage supervisé donc, mais aussi non-supervisé au dessus d'un certain seuil de confiance), et une vérification de post-traitement basique de l'ordre du dictionary search, pour l'instant. J'y travaille toujours dans mon temps libre - ce projet a été réalisé pour les Travaux Personnels Encadrés de Terminale scientifique, et aujourd'hui il n'est pas vraiment utilisable par quelqu'un d'autre que moi, parce que je fais mes fichiers de description du RN et de l'activation (y'a possibilité de persistence du RN, donc d'apprentissage par une application externe, mais aussi de persistence des niveaux d'activation) à la main, et de toutes façons il ne sera pas distribué tant que je n'aurai pas clairement établi l'origine de bouts de code repris pour Hough. De toutes façons, je travaille sur des mécanismes de post-traitement plus « intelligents », sur une interface graphique agréable et instructive, et je passe pas mal de temps à faire des tests pour voir ce qui pourrait améliorer en règle générale.
De façon générale, il est aujourd'hui plus performant, avec mon réseau de neurones, que gocr et que clara, et s'adapte très bien au changement de polices. Mais je ne parle pas de reconnaissance d'écriture manuscrite, c'est un _tout_ autre problème.
Enfin, just my 2 cents, et je ferai une news quand il sera prêt pour son first time. :-)-
[^]Re: OCR sous Linux : comparatif
Posté par Pierre Jarillon (page perso, ) le 09/03/2003 à 01:27. (lien). Évalué à 8.Je piaffe d'impatience de voir cette future merveille ! C'est pas gentil de nous mettre l'eau à la bouche pour nous dire que la soupe n'est pas prête ;-)
Linus a dit : release often ! Je crois qu'il a raison et tu seras peut être étonné d'avoir de l'aide !
-
[^]Re: OCR sous Linux : comparatif
Posté par spart (page perso, ) le 09/03/2003 à 02:13. (lien). Évalué à 9.mais... mais c'est tellement alléchant que c'en est indécent !
D'où vient le RN, si ce n'est pas indiscret ? Amygdalia ?
Misère, et pas le moindre petit morceau de source à grignoter... :-]°-
[^]Re: OCR sous Linux : comparatif
Posté par Manuel Menal (page perso, ) le 09/03/2003 à 10:04. (lien). Évalué à 23.mais... mais c'est tellement alléchant que c'en est indécent !
J'avoue avoir terriblement hésité, mais je me suis dit que ce serait plus drôle .. :-p
D'où vient le RN, si ce n'est pas indiscret ? Amygdalia ?
(Pour ceux qui ne sont pas « dans le bain », Amygdala <http://amygdala.sourceforge.net/(...)
Non. J'y ai bien pensé, j'ai bien suivi Amygdala, et j'ai lu le code activement. Je fus très intéressé, je le serai sans doute dans le futur : le premier problème est, j'aurais sans aucun doute (et j'ai eu, ça n'a pas manqué) à changer le code de mon RN, et pour ça, il faut que je sois parfaitement à l'aise avec le source. Le code d'Amygdala n'est pas illisible comme l'est beaucoup de code dans ce domaine, mais il est en C++, qui n'est pas tout à fait un langage que j'apprécie.
Je me voyais mal me piquer des crises de nerf sur du C++ :-) D'autant plus que bon, de toutes façons, il aurait fallu que je fasse des bindings, le reste de mon programme étant en C. (allez, j'avoue, y'aura du Guile pour les scripts d'extension .. :-) Bref, trop de boulot. J'ai donc fait ma propre implémentation (à partir d'anciens exercices à moi) assez simple, d'un réseau de neurones. Il est assez performant, bien que très simple. Assez adaptable, puisqu'il lit tout dans un fichier (dont je devrais changer le format, je pense (peut-être du XML, pour faire `in' ? :-) ), mais c'est vrai qu'il pourrait être plus performant. Je le retravaillerais avec l'aide d'Amygdala, et si un jour quelqu'un fait de bons bindings pour Amygdala en C, alors .. je céderai, et jetterai mon petit kibi de lignes de codes, et mon réseau entraîné à bloc pour être aussi performant que voulu le jour de la soutenance, à la poubelle. :-)
À vrai dire, le seul bout de code repris et pas complètement réécrit est pour Hough; à part l'import PGM ASCII, pour lequel je me suis inspiré de The Gimp. Hmm, il serait bien d'avoir une bibliothèque qui puisse m'ouvrir n'importe quelle image et me la filer dans un format qui me conviendrait .. Si quelqu'un a déjà testé, ou a des préférences, etc., you're welcome !
Misère, et pas le moindre petit morceau de source à grignoter... :-]°
Même Kilobug a été prié de rm -Rf'er le code que j'avais laissé sur son laptop pour l'occas' de la soutenance .. :-) Pour l'instant, ça serait pas grand chose, de toutes façons, et surtout inutilisable. Allez, patientez et laissez moi coder.
J'en profite pour répondre à Pierre :
Linus a dit : release often ! Je crois qu'il a raison et tu seras peut être étonné d'avoir de l'aide !
Oui, mais en l'espèce, faudra attendre que (1) ça ait un bon potentiel (2) ça soit légalement distribuable (je suis pas développeur mplayer.). Ce que Linus a oublié de préciser, c'est que le moment où l'on met les sources en ligne pour la première fois joue un rôle absolument essentiel dans la survie ou non du projet : tout, dans la communauté du libre, passe par la réputation, et si le projet fait bonne impression, ça va vite. Sinon, ça pèse contre lui bien longtemps. Donc, voilà, quoi.-
[^]Re: OCR sous Linux : comparatif
Posté par Manuel Menal (page perso, ) le 09/03/2003 à 10:30. (lien). Évalué à 13.Oh, et, en attendant, toute idée est extrêmement bien venue, je ne suis pas un expert en la matière, loin de là, mes connaissances se limitent à celles que j'ai acquises en lisant des cours à droite à gauche sur tous les sujets. J'ai citeseer (<http://citeseer.nj.nec.com(...)
-
[^]Re: OCR sous Linux : comparatif
Posté par Manuel Menal (page perso, ) le 09/03/2003 à 10:48. (lien). Évalué à 12.Bon. Je le fais pas d'habitude, mais là, je comprends pas. Comment on peut voter - à ces post ? J'informe juste à propos de GOCR, ClaraOCR, et du travail que je fais - je précise juste ce qu'il contient, comment il est fait, ses limites, etc. Juste qu'il n'existe pas réellement de solution d'OCR libre utilisant des mécanismes plus « classiques » (rien de plus classique que ce que j'utilise.). Le [-] me dépasse un peu ici .. à moins que vous, messieurs, ayiez une réelle critique à opposer, auquel cas je vous prie de bien vouloir vous sentir abilité à la formuler clairement dans une réponse à mes posts.
Bon, ceci dit, ce sont bien les conneries du système des XPs qui sont en jeu ici. Dommage simplement que, malgré des propositions concrètes, il n'y ait pas eu de discussions et de réflexion à ce propos. (et le "envoie un patch" est un peu facile)-
[^]Re: OCR sous Linux : comparatif
Posté par Yves Gablin (page perso, ) le 10/03/2003 à 09:29. (lien). Évalué à 3.Il y en a qui ont voté - !!!? Je n'en reviens pas. Ton discours est pationnant, et j'ai hâte de voir le produit fonctionner. Je sais ce que c'est que d'attendre que ce soit "suffisamment prêt", alors je te souhaite Bon Courage ! Prends le temps dont tu as besoin :)
Yves.
-
-
-
[^]Re: OCR sous Linux : comparatif
Posté par Pierre Tramo (page perso, ) le 09/03/2003 à 12:14. (lien). Évalué à 4.tout, dans la communauté du libre, passe par la réputation, et si le projet fait bonne impression, ça va vite. Sinon, ça pèse contre lui bien longtemps.
Mais de quoi veux-tu parler, enfin ?
/o\--
C'est ce que je pensais, vous êtes un petit con monsieur. Une merde de plus dans une immensité de caca virtuel. Vous êtes la honte du net francophone vous et vos copains. (Phill)
-
-
-
[^]Re: OCR sous Linux : comparatif
Posté par Infernal Quack (Jabber id, page perso, ) le 09/03/2003 à 09:02. (lien). Évalué à 7.il est aujourd'hui plus performant, avec mon réseau de neurones,
Tu l'as connecté à ton cerveau ? :)-
[^]Re: OCR sous Linux : comparatif
-
-
Rippage de sous-titres
<le_saviez_vous_?>
Les sous-titres des dvds sont en fait des vilains bitmaps. Heureusement, grâce à "subtitleripper", qui utilise GOCR, on peut les convertir en de gentils formats textes légers, et lisibles par mplayer et autres xines. L'idéal pour épater vos cyber-amis cinéphiles, forcement amateurs de divx en VOSTF...
http://subtitleripper.sourceforge.net/(...)
</le_saviez_vous_?>
[-1] parceque ce commentaire est vraiment niais mais [+1] parceque il pourrait intérresser ceux qui ne le savais pas, donc [0].




Cette discussion est archivée, il n'est plus possible de laisser des commentaires.
Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.