Journal Vérificateur grammatical libre, la suite.

Posté par  (site web personnel) .
Étiquettes :
0
18
jan.
2006
Suite à ce journal http://linuxfr.org/~newlimits/17983.html il n'y avait plus trop de nouvelles concernant le sujet.

Il y avait ce journal http://linuxfr.org/forums/10/11845.html qui présentait un produit intéressant http://lepatron.tapor.ualberta.ca/ , un vérificateur grammatical (et non correcteur) avec interface web
Et une nouvelle version d'abiword avec un vérificateur pour l'anglais.

Le 30 novembre 2005 Myriam Lechelt a publié sur Internet son mémoire concernant la création d'un vérificateur grammatical libre pour le français :
http://blogs.nuxeo.com/sections/blogs/myriam_lechelt/2005_11(...)

Si vous êtes passionné par le sujet, je ne saurais trop vous conseiller de lire ce mémoire.

son travail a tourné essentiellement autour du moteur du vérificateur Gramadóir pour le Gaélique, celui qui, et l'état, serait le plus adapté au Français parmi les moteurs libres. Elle a comparé avec Languagetools et Grac.

Voici quelques morceaux "non-techniques" choisis :

Même si l'on peut améliorer Gramadóir, nous avons montré qu'il atteint des limites
pour le français. La conception d'un tout autre système serait
préférable. En effet, il paraît plus judicieux de créer un nouveau système plutôt que
de sans cesse tenter d'améliorer l'existant.
Par rapport à ce que nous avons observé dans les autres systèmes et à la correction
que nous voudrions, nous pouvons énoncer les principes et les fondements sur
lesquels se baserait le nouveau. La conception détaillée et les algorithmes précis d'un
tel système ne constituent pas l'objet principal de ce mémoire car ils demanderaient
le travail d'un linguiste informaticien pendant plusieurs mois. Mais nous pouvons
proposer quelques principes de conception.



En grammaire, il y a d'une part l'analyse syntaxique, mais aussi les phrases incorrectes. Par exemple : "je vous serais" gré a une syntaxe et une orthographe correctes, mais la formule exacte est "je vous saurais gré". Il s'agit d'un contexte parmi des centaines. L'opinion de Myriam Lechelt est la suivante :

Tout d'abord, il semble important d'éviter le principe de pattern matching rigide en
ce sens qu'il ne faut pas que le système soit contraint de « coller » à des modèles de
phrases ou de groupes de mots prédéfinis. En effet, nous l'avons montré, cela
implique de tout décrire et de prévoir tous les contextes envisageables, ce qui
restreint fortement les possibilités et l'étendue de la correction. En revanche, nous
verrons que nous opterons pour une autre forme de pattern matching.
[...]
nous avons proposé des améliorations pour Gramadóir. Nous avons
soumis les enrichissements possibles du lexique. Nous avons énuméré les règles de
désambiguïsation qu'il faudrait ajouter. Enfin, nous avons évoqué plusieurs règles de
grammaire qu'il faut encore rédiger.
Puis, dans le cas où l'on déciderait d'adopter un nouveau système, mieux adapté à la
langue française, nous avons proposé quelques conseils de conception de celui-ci.
[...]
Nous sommes convaincus qu'avec un tel
système, nous serons beaucoup moins limités au niveau de la couverture de fautes
d'accords.


Il est à noter que s'il est nécessaire d'avoir des informaticiens pour développer la structure du moteur de correction, il est indispensable de travailler avec des linguistes, spécialisés dans la francophonie avec ses variantes (belge, suisse, française, québecoise etc.).
Qui se doit de collaborer afin de fournir le corpus nécessaire et mis à jour ? L'académie Française comme le pense gohar http://linuxfr.org/comments/592111.html#592111 ? Les universités ? L'atilf ( http://www.atilf.fr/ qui a produit l'excellent et indispensable TLFI [1]) ? Un indépendant comme Brewalan Le Drû, auteur du site http://www.leconjugueur.com/ ? Ou une société comme Druide ou même un google quelconque ?


------------
[1] Quelques liens sur le TLFI :
Trésor de la Langue Française Informatisé : http://atilf.atilf.fr/tlf.htm
Le guide d'utilisation pour les jeunes : http://site.voila.fr/topophoto/tlf.html
L'article Wikipédia : http://fr.wikipedia.org/wiki/TLFi
  • # à la volée

    Posté par  (site web personnel) . Évalué à 7.

    Sympa, ça me permet de compléter mes marque-pages
    http://wiki.eagle-usb.org/wakka.php?wiki=SemantiqueEtLangue

    Je n'ai pas trop compris pourquoi ne pas lister certains éléments de contexte, même si c'est difficilement maintenable. Cela permet AMHA d'identifier le style de la phrase. Par exemple, "ça le fait" pour dire "ça me convient" dans le style familier ("colloquial" dirait-on en anglais...), voire cela permet d'identifier "AMHA" comme un terme du registre IRC / forum.

    Mais, bon déjà avoir des pistes pour orienter les développements d'un correcteur grammatical, c'est déjà pas mal, chaque chose en son temps. Mieux vaut que je (re-)lise le PDF pour compléter une première réaction à chaud...

    PS : p.9 2ème § "à la volé" n'a pas été trouvé par le correcteur orthographique (à raison), dommage par le correcteur grammatical non plus :-(
  • # Clap clap clap

    Posté par  . Évalué à 10.

    Un grand bravo pour le travail de Myriam Lechelt et de Nuxeo!
    Bravo aussi à toi bruce d'avoir posté un journal!!!

    J'espère maintenant que ceci ne s'arrêtera pas là.
  • # wikitionnaire ?

    Posté par  (site web personnel) . Évalué à 5.

    les outils wikipédia peuvent fournir un lexique avec les types des mots.

    "La première sécurité est la liberté"

    • [^] # Re: wikitionnaire ?

      Posté par  (site web personnel) . Évalué à 3.

      L'idée serait bonne si y avait pas un obstacle majeur:
      Wikitionnaire n'est pas "scriptable"
      La structure n'est pas précisement défini, et je doute que meme si c'etait le cas, il serait possible de parser ca simplement (ou alors la définition est tres strictement encadrée mais ouch)
      • [^] # Re: wikitionnaire ?

        Posté par  (site web personnel) . Évalué à 3.

        Si cela pourrait l'être. Ils sont en train de développer un formulaire spécial pour entrer les définitions.

        Mais il serait plus judicieux de récupérer la base de donnée de leconjugueur qui a l'air pas mal exaustive.

        "La première sécurité est la liberté"

  • # Et la suite ?

    Posté par  . Évalué à 10.

    Bonjour,

    Merci Bruce pour le ce Journal
    J'ai eu le plaisir d'encadrer Myriam pendant son stage et les implications linguistiques ont été à mon avis bien cernées.

    Outre son rapport, je vous conseille également son blog où elle a parlé de ses préocupations linguistiques tout au long de son stage
    http://blogs.nuxeo.com/sections/blogs/myriam_lechelt

    Construire un correcteur gammatical est un gros morceaux et plusieurs étapes et itérations seront necessaires (des entreprises en font leur métier depuis des années, avec des ressurces dédiées et bien souvent, hélas, des corpus non libres).

    Nous en avons déjà une implémentation avec gramadoir http://borel.slu.edu/gramadoir/ Sa base de règles à partir d'expression régulières peut être enrichie ...
    Mais surtout nous avons désormais une approche et méthodologie comme base de travail.

    Suite au travail de Myriam, il se degage 3 axes de travail
    - Enrichir et rationaliser le dictionnaire taggé
    - Améliorer la désambiguisation.
    - Utliser le principe d'unification des traits pour vérifier la cohérence grammaticale

    Je compte sous peu refaire le point. C'est une question de temps, comme d'habitude.
    Je pense dans un premier temps mettre en place un outil de validation du dictionnaire taggé qui contient 450 000 entrées. Je pense opter pour une approche collaborative mais rien n'est encore fait. Cette validitation du dictionnaire est la base de la correction grammaticale : si des étiquettes sont fausses, on risque de ne pas pouvoir faire grand chose. bref, evitons les GIGO programs (Garbage Input, Garbage Output)

    Pour ce qui est de l'intégration à OpenOffice.org, celle ci viendra après comme aboutissement. Le correcteur gammatical ne vise pas uniquement pour OOo mais il devrait pouvoir être utilisable ailleurs, sous licence libre bien sûr. Donc une fois la logique linguistique implémentée, le reste ne sera qu'amusement ;)

    Et je le rappelle, l'objectif est d'avoir un truc qui marche. Simple dans un premier temps qui sera enrichi petit à petit.

    Laurent

    Ps: j'assume, malheureusement, toutes les fautes de frappes, orthographes et grammaire de ces quelques lignes.
    • [^] # Re: Et la suite ?

      Posté par  (site web personnel) . Évalué à 4.

      Un correcteur gramatical est vraiment ce qui me manque le plus tout les jours sous Linux.

      Cela ne serait pas possible de s'entendre avec des distributions commercials ou avec de futurs clients pour avoir des ressources pour faire avancé le projet. Je pensais par exemple à la gendarmerie qui passe massivement à OOo ou encore à Mandriva ou n'importe quel grand compte utilisant OOo ou thunderbird.

      "La première sécurité est la liberté"

    • [^] # Re: Et la suite ?

      Posté par  (site web personnel) . Évalué à 4.

      Salut, merci pour votre travail chez nuxeo.


      Pour le premier point, qu'entends-tu par approche collaborative ? Et qui vois-tu pour la validation du dictionnaire ?

      Je trouve que c'est une bonne idée que le moteur soit indépendant d'openoffice. Tu verrais un système moteur_de_correction/corpus un peu similaire à celui anti-virus/base_de_signatures ?
  • # Commentaire supprimé

    Posté par  . Évalué à 5.

    Ce commentaire a été supprimé par l’équipe de modération.

  • # La référence....

    Posté par  (site web personnel) . Évalué à 6.

    La référence à mes yeux est et restera Correcteur101 qui existait avant sous linux : http://www.mysoft.fr/correcteur.htm

    Dommage c'était proprio et donc ça n'est plus disponible. Mais c'était vahcement efficace et contrairement à Word, ça expliquait les erreurs trouvées.

    C'était payant et assez cher mais il faut dire que faire un correcteur grammatical c'est très long et très difficile vu la difficulté de la langue française. C'est vrai qu'un correcteur grammatical libre serait l'idéal mais ça va demander beaucoup de temps et de compétence pour arriver à un niveau acceptable :(

    L'association LinuxFr ne saurait être tenue responsable des propos légalement repréhensibles ou faisant allusion à l'évêque de Rome, au chef de l'Église catholique romaine ou au chef temporel de l'État du Vatican et se trouvant dans ce commentaire

    • [^] # Re: La référence....

      Posté par  (site web personnel) . Évalué à 3.

      Perso j'ai encore une licence et une version de corr101 linux.

      Je l'utilise en mode texte, car les biblio graphiques ne sont plus compatibles avec les derniers systèmes.

      Savais tu que Machina-Sapiens avait appelé Corr101 à cause, je crois d'un amendement ou d'un truc du genre qui portait le numéro 101 et qui rendait le français lange officielle du québec. bon je sais ça manque de précision mais c'est pour une raison comme ça à deux trois manches de casserole près.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.