Journal : Vérificateur grammatical libre, la suite.

Posté par Bruce Le Nain (Jabber id, page perso, ) le 18 janvier 2006
0
Suite à ce journal http://linuxfr.org/~newlimits/17983.html il n'y avait plus trop de nouvelles concernant le sujet.

Il y avait ce journal http://linuxfr.org/forums/10/11845.html qui présentait un produit intéressant http://lepatron.tapor.ualberta.ca/ , un vérificateur grammatical (et non correcteur) avec interface web
Et une nouvelle version d'abiword avec un vérificateur pour l'anglais.

Le 30 novembre 2005 Myriam Lechelt a publié sur Internet son mémoire concernant la création d'un vérificateur grammatical libre pour le français :
http://blogs.nuxeo.com/sections/blogs/myriam_lechelt/2005_11(...)

Si vous êtes passionné par le sujet, je ne saurais trop vous conseiller de lire ce mémoire.

son travail a tourné essentiellement autour du moteur du vérificateur Gramadóir pour le Gaélique, celui qui, et l'état, serait le plus adapté au Français parmi les moteurs libres. Elle a comparé avec Languagetools et Grac.

Voici quelques morceaux "non-techniques" choisis :

Même si l'on peut améliorer Gramadóir, nous avons montré qu'il atteint des limites
pour le français. La conception d'un tout autre système serait
préférable. En effet, il paraît plus judicieux de créer un nouveau système plutôt que
de sans cesse tenter d'améliorer l'existant.
Par rapport à ce que nous avons observé dans les autres systèmes et à la correction
que nous voudrions, nous pouvons énoncer les principes et les fondements sur
lesquels se baserait le nouveau. La conception détaillée et les algorithmes précis d'un
tel système ne constituent pas l'objet principal de ce mémoire car ils demanderaient
le travail d'un linguiste informaticien pendant plusieurs mois. Mais nous pouvons
proposer quelques principes de conception.



En grammaire, il y a d'une part l'analyse syntaxique, mais aussi les phrases incorrectes. Par exemple : "je vous serais" gré a une syntaxe et une orthographe correctes, mais la formule exacte est "je vous saurais gré". Il s'agit d'un contexte parmi des centaines. L'opinion de Myriam Lechelt est la suivante :

Tout d'abord, il semble important d'éviter le principe de pattern matching rigide en
ce sens qu'il ne faut pas que le système soit contraint de « coller » à des modèles de
phrases ou de groupes de mots prédéfinis. En effet, nous l'avons montré, cela
implique de tout décrire et de prévoir tous les contextes envisageables, ce qui
restreint fortement les possibilités et l'étendue de la correction. En revanche, nous
verrons que nous opterons pour une autre forme de pattern matching.
[...]
nous avons proposé des améliorations pour Gramadóir. Nous avons
soumis les enrichissements possibles du lexique. Nous avons énuméré les règles de
désambiguïsation qu'il faudrait ajouter. Enfin, nous avons évoqué plusieurs règles de
grammaire qu'il faut encore rédiger.
Puis, dans le cas où l'on déciderait d'adopter un nouveau système, mieux adapté à la
langue française, nous avons proposé quelques conseils de conception de celui-ci.
[...]
Nous sommes convaincus qu'avec un tel
système, nous serons beaucoup moins limités au niveau de la couverture de fautes
d'accords.


Il est à noter que s'il est nécessaire d'avoir des informaticiens pour développer la structure du moteur de correction, il est indispensable de travailler avec des linguistes, spécialisés dans la francophonie avec ses variantes (belge, suisse, française, québecoise etc.).
Qui se doit de collaborer afin de fournir le corpus nécessaire et mis à jour ? L'académie Française comme le pense gohar http://linuxfr.org/comments/592111.html#592111 ? Les universités ? L'atilf ( http://www.atilf.fr/ qui a produit l'excellent et indispensable TLFI [1]) ? Un indépendant comme Brewalan Le Drû, auteur du site http://www.leconjugueur.com/ ? Ou une société comme Druide ou même un google quelconque ?


------------
[1] Quelques liens sur le TLFI :
Trésor de la Langue Française Informatisé : http://atilf.atilf.fr/tlf.htm
Le guide d'utilisation pour les jeunes : http://site.voila.fr/topophoto/tlf.html
L'article Wikipédia : http://fr.wikipedia.org/wiki/TLFi

> Lire le journal (15 commentaires, moyenne: 4,4).  

Cette discussion est archivée, il n'est plus possible de laisser des commentaires.

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.

à la volée

Posté par baud123 (Jabber id, page perso, ) le 18/01/2006 à 12:33. (lien). Évalué à 7.

Sympa, ça me permet de compléter mes marque-pages
http://wiki.eagle-usb.org/wakka.php?wiki=SemantiqueEtLangue

Je n'ai pas trop compris pourquoi ne pas lister certains éléments de contexte, même si c'est difficilement maintenable. Cela permet AMHA d'identifier le style de la phrase. Par exemple, "ça le fait" pour dire "ça me convient" dans le style familier ("colloquial" dirait-on en anglais...), voire cela permet d'identifier "AMHA" comme un terme du registre IRC / forum.

Mais, bon déjà avoir des pistes pour orienter les développements d'un correcteur grammatical, c'est déjà pas mal, chaque chose en son temps. Mieux vaut que je (re-)lise le PDF pour compléter une première réaction à chaud...

PS : p.9 2ème § "à la volé" n'a pas été trouvé par le correcteur orthographique (à raison), dommage par le correcteur grammatical non plus :-(

Clap clap clap

Posté par newlimits (page perso, ) le 18/01/2006 à 12:36. (lien). Évalué à 10.

Un grand bravo pour le travail de Myriam Lechelt et de Nuxeo!
Bravo aussi à toi bruce d'avoir posté un journal!!!

J'espère maintenant que ceci ne s'arrêtera pas là.

wikitionnaire ?

Posté par Nicolas Boulay () le 18/01/2006 à 12:43. (lien). Évalué à 5.

les outils wikipédia peuvent fournir un lexique avec les types des mots.

  • [^]Re: wikitionnaire ?

    Posté par Ph Husson (page perso, ) le 18/01/2006 à 13:09. (lien). Évalué à 3.

    L'idée serait bonne si y avait pas un obstacle majeur:
    Wikitionnaire n'est pas "scriptable"
    La structure n'est pas précisement défini, et je doute que meme si c'etait le cas, il serait possible de parser ca simplement (ou alors la définition est tres strictement encadrée mais ouch)

    • [^]Re: wikitionnaire ?

      Posté par Nicolas Boulay () le 18/01/2006 à 13:25. (lien). Évalué à 3.

      Si cela pourrait l'être. Ils sont en train de développer un formulaire spécial pour entrer les définitions.

      Mais il serait plus judicieux de récupérer la base de donnée de leconjugueur qui a l'air pas mal exaustive.

Et la suite ?

Posté par Laurent Godard () le 18/01/2006 à 13:21. (lien). Évalué à 10.

Bonjour,

Merci Bruce pour le ce Journal
J'ai eu le plaisir d'encadrer Myriam pendant son stage et les implications linguistiques ont été à mon avis bien cernées.

Outre son rapport, je vous conseille également son blog où elle a parlé de ses préocupations linguistiques tout au long de son stage
http://blogs.nuxeo.com/sections/blogs/myriam_lechelt

Construire un correcteur gammatical est un gros morceaux et plusieurs étapes et itérations seront necessaires (des entreprises en font leur métier depuis des années, avec des ressurces dédiées et bien souvent, hélas, des corpus non libres).

Nous en avons déjà une implémentation avec gramadoir http://borel.slu.edu/gramadoir/ Sa base de règles à partir d'expression régulières peut être enrichie ...
Mais surtout nous avons désormais une approche et méthodologie comme base de travail.

Suite au travail de Myriam, il se degage 3 axes de travail
- Enrichir et rationaliser le dictionnaire taggé
- Améliorer la désambiguisation.
- Utliser le principe d'unification des traits pour vérifier la cohérence grammaticale

Je compte sous peu refaire le point. C'est une question de temps, comme d'habitude.
Je pense dans un premier temps mettre en place un outil de validation du dictionnaire taggé qui contient 450 000 entrées. Je pense opter pour une approche collaborative mais rien n'est encore fait. Cette validitation du dictionnaire est la base de la correction grammaticale : si des étiquettes sont fausses, on risque de ne pas pouvoir faire grand chose. bref, evitons les GIGO programs (Garbage Input, Garbage Output)

Pour ce qui est de l'intégration à OpenOffice.org, celle ci viendra après comme aboutissement. Le correcteur gammatical ne vise pas uniquement pour OOo mais il devrait pouvoir être utilisable ailleurs, sous licence libre bien sûr. Donc une fois la logique linguistique implémentée, le reste ne sera qu'amusement ;)

Et je le rappelle, l'objectif est d'avoir un truc qui marche. Simple dans un premier temps qui sera enrichi petit à petit.

Laurent

Ps: j'assume, malheureusement, toutes les fautes de frappes, orthographes et grammaire de ces quelques lignes.

  • [^]Re: Et la suite ?

    Posté par Nicolas Boulay () le 18/01/2006 à 13:31. (lien). Évalué à 4.

    Un correcteur gramatical est vraiment ce qui me manque le plus tout les jours sous Linux.

    Cela ne serait pas possible de s'entendre avec des distributions commercials ou avec de futurs clients pour avoir des ressources pour faire avancé le projet. Je pensais par exemple à la gendarmerie qui passe massivement à OOo ou encore à Mandriva ou n'importe quel grand compte utilisant OOo ou thunderbird.

  • [^]Re: Et la suite ?

    Posté par Bruce Le Nain (Jabber id, page perso, ) le 18/01/2006 à 13:42. (lien). Évalué à 4.

    Salut, merci pour votre travail chez nuxeo.


    Pour le premier point, qu'entends-tu par approche collaborative ? Et qui vois-tu pour la validation du dictionnaire ?

    Je trouve que c'est une bonne idée que le moteur soit indépendant d'openoffice. Tu verrais un système moteur_de_correction/corpus un peu similaire à celui anti-virus/base_de_signatures ?

Correcteur grammatical multilangue

Posté par Étienne Bersac (Jabber id, page perso, ) le 18/01/2006 à 16:59. (lien). Évalué à 5.

Salut,

Je salut aussi ce projet. J'ai vu à l'Apple Expo une démonstration d'un logiciel propriétaire, qui s'intégrait à OOo et firefox et était dispo pour Mac et Windows, il semblait lorgner un peu sur linux. Mais en tout cas, ça montrait clairement un manque dans le libre. Bravo pour votre initiative.

Je me demande dans quel mesure il est possible de faire un correcteur grammatical multilingue. Simplement dans le but de partager le code et d'avoir une interface unifiée.

Évidemment, les langues ont des concepts différents voire des alphabets différents. Mais cependant, il manque un truc global comme on a pour la correction orthographique.

--
E Ultreïa !

La référence....

Posté par Infernal Quack (Jabber id, page perso, ) le 18/01/2006 à 17:10. (lien). Évalué à 6.

La référence à mes yeux est et restera Correcteur101 qui existait avant sous linux : http://www.mysoft.fr/correcteur.htm

Dommage c'était proprio et donc ça n'est plus disponible. Mais c'était vahcement efficace et contrairement à Word, ça expliquait les erreurs trouvées.

C'était payant et assez cher mais il faut dire que faire un correcteur grammatical c'est très long et très difficile vu la difficulté de la langue française. C'est vrai qu'un correcteur grammatical libre serait l'idéal mais ça va demander beaucoup de temps et de compétence pour arriver à un niveau acceptable :(

  • [^]Re: La référence....

    Posté par Bruce Le Nain (Jabber id, page perso, ) le 18/01/2006 à 22:28. (lien). Évalué à 3.

    Perso j'ai encore une licence et une version de corr101 linux.

    Je l'utilise en mode texte, car les biblio graphiques ne sont plus compatibles avec les derniers systèmes.

    Savais tu que Machina-Sapiens avait appelé Corr101 à cause, je crois d'un amendement ou d'un truc du genre qui portait le numéro 101 et qui rendait le français lange officielle du québec. bon je sais ça manque de précision mais c'est pour une raison comme ça à deux trois manches de casserole près.

    • [^]Re: La référence....

      Posté par pada () le 19/01/2006 à 04:33. (lien). Évalué à 2.

      Que ce soit Corr101 ou Antidote (qui s'intègre à OOo sur Mac) c'est une question de marché semble-t-il. Une façon d'accélerer les choses est probablement de leur faire savoir que vous êtes prêts à acheter une copie pour Linux.

      --
      Ne copiez pas de logiciel si son propriétaire ne l'autorise pas, optez pour le logiciel libre.
      • [^]Re: La référence....

        Posté par pierthi () le 23/01/2006 à 02:52. (lien). Évalué à 1.

        Pour Antidote, quelqu'un avait posté un message sur fcold qui résumait la position de la boîte vis à vis de la version du correcteur sous Linux :

        http://groups.google.ca/group/fr.comp.os.linux.debats/browse(...)

        Ils sont ouverts, mais c'est très loin d'être gagné ....

        • [^]Re: La référence....

          Posté par Bruce Le Nain (Jabber id, page perso, ) le 23/01/2006 à 10:59. (lien). Évalué à 2.

          Ils envoient régulièrement le même message, quand on leur pose la question "antidote sous linux". Je ne pense pas que ça soit automatique, mais j'ai eu le même quand je leur ait écrit, il y a bien 3 ou 4 ans .

Revenir en haut de page