Derniers journaux de BruceLeNain :
- [03/01@19:51] Kadéo bounty
- [10/12@19:47] Sondage Bioware
- [10/12@13:13] OCSinventory bientôt en RC1, nouveau site... et futur avec GLPI
- [05/12@20:43] La révélation
- [02/12@10:38] Debian, Mandriva, une constatation et un petit besoin d'aide...
- [12/11@11:35] La console GP2X sous linux à 190 ¤
- [04/11@22:48] Assurance open source à la Lloyd's
- [20/10@15:45] "Migrez vers GNU/Linux si c'est pas déjà fait !"
- [21/09@12:03] Quelles alternatives au pétrole ?
- [15/09@15:54] Chobits
- [29/08@12:07] Économie d'énergie et émergence d'écologie
- [17/08@07:49] La création de pages web : l'aspect découpage d'images
- [08/06@14:00] HS : solution Linux bootable sur disque externe H2 USB
- [06/06@08:25] Ça se passe comme ça chez Mac
- [03/06@13:25] Pour toi qui t'intéresse à Mandriva (même si tu écris gentoo sur le CD parce que tu as honte)
- [26/05@08:38] Un jour, dans un petit pays de l'ouest...
- [25/05@14:47] La solitude de l'administrateur de fond...
- [18/05@15:26] Les lames des sabres laser ont-elles une masse ?
- [04/05@10:29] L'attirail de l'administrateur de parc hétérogène
- [26/04@08:46] Le jour où notre disque dur aura disparu
Journal : Vérificateur grammatical libre, la suite.
Posté par Bruce Le Nain (Jabber id, page perso, ) le 18 janvier 2006Il y avait ce journal http://linuxfr.org/forums/10/11845.html qui présentait un produit intéressant http://lepatron.tapor.ualberta.ca/ , un vérificateur grammatical (et non correcteur) avec interface web
Et une nouvelle version d'abiword avec un vérificateur pour l'anglais.
Le 30 novembre 2005 Myriam Lechelt a publié sur Internet son mémoire concernant la création d'un vérificateur grammatical libre pour le français :
http://blogs.nuxeo.com/sections/blogs/myriam_lechelt/2005_11(...)
Si vous êtes passionné par le sujet, je ne saurais trop vous conseiller de lire ce mémoire.
son travail a tourné essentiellement autour du moteur du vérificateur Gramadóir pour le Gaélique, celui qui, et l'état, serait le plus adapté au Français parmi les moteurs libres. Elle a comparé avec Languagetools et Grac.
Voici quelques morceaux "non-techniques" choisis :
Même si l'on peut améliorer Gramadóir, nous avons montré qu'il atteint des limites
pour le français. La conception d'un tout autre système serait
préférable. En effet, il paraît plus judicieux de créer un nouveau système plutôt que
de sans cesse tenter d'améliorer l'existant.
Par rapport à ce que nous avons observé dans les autres systèmes et à la correction
que nous voudrions, nous pouvons énoncer les principes et les fondements sur
lesquels se baserait le nouveau. La conception détaillée et les algorithmes précis d'un
tel système ne constituent pas l'objet principal de ce mémoire car ils demanderaient
le travail d'un linguiste informaticien pendant plusieurs mois. Mais nous pouvons
proposer quelques principes de conception.
En grammaire, il y a d'une part l'analyse syntaxique, mais aussi les phrases incorrectes. Par exemple : "je vous serais" gré a une syntaxe et une orthographe correctes, mais la formule exacte est "je vous saurais gré". Il s'agit d'un contexte parmi des centaines. L'opinion de Myriam Lechelt est la suivante :
Tout d'abord, il semble important d'éviter le principe de pattern matching rigide en
ce sens qu'il ne faut pas que le système soit contraint de « coller » à des modèles de
phrases ou de groupes de mots prédéfinis. En effet, nous l'avons montré, cela
implique de tout décrire et de prévoir tous les contextes envisageables, ce qui
restreint fortement les possibilités et l'étendue de la correction. En revanche, nous
verrons que nous opterons pour une autre forme de pattern matching.
[...]
nous avons proposé des améliorations pour Gramadóir. Nous avons
soumis les enrichissements possibles du lexique. Nous avons énuméré les règles de
désambiguïsation qu'il faudrait ajouter. Enfin, nous avons évoqué plusieurs règles de
grammaire qu'il faut encore rédiger.
Puis, dans le cas où l'on déciderait d'adopter un nouveau système, mieux adapté à la
langue française, nous avons proposé quelques conseils de conception de celui-ci.
[...]
Nous sommes convaincus qu'avec un tel
système, nous serons beaucoup moins limités au niveau de la couverture de fautes
d'accords.
Il est à noter que s'il est nécessaire d'avoir des informaticiens pour développer la structure du moteur de correction, il est indispensable de travailler avec des linguistes, spécialisés dans la francophonie avec ses variantes (belge, suisse, française, québecoise etc.).
Qui se doit de collaborer afin de fournir le corpus nécessaire et mis à jour ? L'académie Française comme le pense gohar http://linuxfr.org/comments/592111.html#592111 ? Les universités ? L'atilf ( http://www.atilf.fr/ qui a produit l'excellent et indispensable TLFI [1]) ? Un indépendant comme Brewalan Le Drû, auteur du site http://www.leconjugueur.com/ ? Ou une société comme Druide ou même un google quelconque ?
------------
[1] Quelques liens sur le TLFI :
Trésor de la Langue Française Informatisé : http://atilf.atilf.fr/tlf.htm
Le guide d'utilisation pour les jeunes : http://site.voila.fr/topophoto/tlf.html
L'article Wikipédia : http://fr.wikipedia.org/wiki/TLFi
> Lire le journal (15 commentaires, moyenne: 4,4).
à la volée
Sympa, ça me permet de compléter mes marque-pages
http://wiki.eagle-usb.org/wakka.php?wiki=SemantiqueEtLangue
Je n'ai pas trop compris pourquoi ne pas lister certains éléments de contexte, même si c'est difficilement maintenable. Cela permet AMHA d'identifier le style de la phrase. Par exemple, "ça le fait" pour dire "ça me convient" dans le style familier ("colloquial" dirait-on en anglais...), voire cela permet d'identifier "AMHA" comme un terme du registre IRC / forum.
Mais, bon déjà avoir des pistes pour orienter les développements d'un correcteur grammatical, c'est déjà pas mal, chaque chose en son temps. Mieux vaut que je (re-)lise le PDF pour compléter une première réaction à chaud...
PS : p.9 2ème § "à la volé" n'a pas été trouvé par le correcteur orthographique (à raison), dommage par le correcteur grammatical non plus :-(
Clap clap clap
Un grand bravo pour le travail de Myriam Lechelt et de Nuxeo!
Bravo aussi à toi bruce d'avoir posté un journal!!!
J'espère maintenant que ceci ne s'arrêtera pas là.
wikitionnaire ?
les outils wikipédia peuvent fournir un lexique avec les types des mots.
-
[^]Re: wikitionnaire ?
Posté par Ph Husson (page perso, ) le 18/01/2006 à 13:09. (lien). Évalué à 3.L'idée serait bonne si y avait pas un obstacle majeur:
Wikitionnaire n'est pas "scriptable"
La structure n'est pas précisement défini, et je doute que meme si c'etait le cas, il serait possible de parser ca simplement (ou alors la définition est tres strictement encadrée mais ouch)-
[^]Re: wikitionnaire ?
Posté par Nicolas Boulay () le 18/01/2006 à 13:25. (lien). Évalué à 3.Si cela pourrait l'être. Ils sont en train de développer un formulaire spécial pour entrer les définitions.
Mais il serait plus judicieux de récupérer la base de donnée de leconjugueur qui a l'air pas mal exaustive.
-
Et la suite ?
Bonjour,
Merci Bruce pour le ce Journal
J'ai eu le plaisir d'encadrer Myriam pendant son stage et les implications linguistiques ont été à mon avis bien cernées.
Outre son rapport, je vous conseille également son blog où elle a parlé de ses préocupations linguistiques tout au long de son stage
http://blogs.nuxeo.com/sections/blogs/myriam_lechelt
Construire un correcteur gammatical est un gros morceaux et plusieurs étapes et itérations seront necessaires (des entreprises en font leur métier depuis des années, avec des ressurces dédiées et bien souvent, hélas, des corpus non libres).
Nous en avons déjà une implémentation avec gramadoir http://borel.slu.edu/gramadoir/ Sa base de règles à partir d'expression régulières peut être enrichie ...
Mais surtout nous avons désormais une approche et méthodologie comme base de travail.
Suite au travail de Myriam, il se degage 3 axes de travail
- Enrichir et rationaliser le dictionnaire taggé
- Améliorer la désambiguisation.
- Utliser le principe d'unification des traits pour vérifier la cohérence grammaticale
Je compte sous peu refaire le point. C'est une question de temps, comme d'habitude.
Je pense dans un premier temps mettre en place un outil de validation du dictionnaire taggé qui contient 450 000 entrées. Je pense opter pour une approche collaborative mais rien n'est encore fait. Cette validitation du dictionnaire est la base de la correction grammaticale : si des étiquettes sont fausses, on risque de ne pas pouvoir faire grand chose. bref, evitons les GIGO programs (Garbage Input, Garbage Output)
Pour ce qui est de l'intégration à OpenOffice.org, celle ci viendra après comme aboutissement. Le correcteur gammatical ne vise pas uniquement pour OOo mais il devrait pouvoir être utilisable ailleurs, sous licence libre bien sûr. Donc une fois la logique linguistique implémentée, le reste ne sera qu'amusement ;)
Et je le rappelle, l'objectif est d'avoir un truc qui marche. Simple dans un premier temps qui sera enrichi petit à petit.
Laurent
Ps: j'assume, malheureusement, toutes les fautes de frappes, orthographes et grammaire de ces quelques lignes.
-
[^]Re: Et la suite ?
Posté par Nicolas Boulay () le 18/01/2006 à 13:31. (lien). Évalué à 4.Un correcteur gramatical est vraiment ce qui me manque le plus tout les jours sous Linux.
Cela ne serait pas possible de s'entendre avec des distributions commercials ou avec de futurs clients pour avoir des ressources pour faire avancé le projet. Je pensais par exemple à la gendarmerie qui passe massivement à OOo ou encore à Mandriva ou n'importe quel grand compte utilisant OOo ou thunderbird.
-
[^]Re: Et la suite ?
Posté par Bruce Le Nain (Jabber id, page perso, ) le 18/01/2006 à 13:42. (lien). Évalué à 4.Salut, merci pour votre travail chez nuxeo.
Pour le premier point, qu'entends-tu par approche collaborative ? Et qui vois-tu pour la validation du dictionnaire ?
Je trouve que c'est une bonne idée que le moteur soit indépendant d'openoffice. Tu verrais un système moteur_de_correction/corpus un peu similaire à celui anti-virus/base_de_signatures ?
Correcteur grammatical multilangue
Salut,
Je salut aussi ce projet. J'ai vu à l'Apple Expo une démonstration d'un logiciel propriétaire, qui s'intégrait à OOo et firefox et était dispo pour Mac et Windows, il semblait lorgner un peu sur linux. Mais en tout cas, ça montrait clairement un manque dans le libre. Bravo pour votre initiative.
Je me demande dans quel mesure il est possible de faire un correcteur grammatical multilingue. Simplement dans le but de partager le code et d'avoir une interface unifiée.
Évidemment, les langues ont des concepts différents voire des alphabets différents. Mais cependant, il manque un truc global comme on a pour la correction orthographique.
E Ultreïa !
La référence....
La référence à mes yeux est et restera Correcteur101 qui existait avant sous linux : http://www.mysoft.fr/correcteur.htm
Dommage c'était proprio et donc ça n'est plus disponible. Mais c'était vahcement efficace et contrairement à Word, ça expliquait les erreurs trouvées.
C'était payant et assez cher mais il faut dire que faire un correcteur grammatical c'est très long et très difficile vu la difficulté de la langue française. C'est vrai qu'un correcteur grammatical libre serait l'idéal mais ça va demander beaucoup de temps et de compétence pour arriver à un niveau acceptable :(
-
[^]Re: La référence....
Posté par Bruce Le Nain (Jabber id, page perso, ) le 18/01/2006 à 22:28. (lien). Évalué à 3.Perso j'ai encore une licence et une version de corr101 linux.
Je l'utilise en mode texte, car les biblio graphiques ne sont plus compatibles avec les derniers systèmes.
Savais tu que Machina-Sapiens avait appelé Corr101 à cause, je crois d'un amendement ou d'un truc du genre qui portait le numéro 101 et qui rendait le français lange officielle du québec. bon je sais ça manque de précision mais c'est pour une raison comme ça à deux trois manches de casserole près.-
[^]Re: La référence....
Posté par pada () le 19/01/2006 à 04:33. (lien). Évalué à 2.Que ce soit Corr101 ou Antidote (qui s'intègre à OOo sur Mac) c'est une question de marché semble-t-il. Une façon d'accélerer les choses est probablement de leur faire savoir que vous êtes prêts à acheter une copie pour Linux.
--
Ne copiez pas de logiciel si son propriétaire ne l'autorise pas, optez pour le logiciel libre.-
[^]Re: La référence....
Posté par pierthi () le 23/01/2006 à 02:52. (lien). Évalué à 1.Pour Antidote, quelqu'un avait posté un message sur fcold qui résumait la position de la boîte vis à vis de la version du correcteur sous Linux :
http://groups.google.ca/group/fr.comp.os.linux.debats/browse(...)
Ils sont ouverts, mais c'est très loin d'être gagné ....-
[^]Re: La référence....
Posté par Bruce Le Nain (Jabber id, page perso, ) le 23/01/2006 à 10:59. (lien). Évalué à 2.Ils envoient régulièrement le même message, quand on leur pose la question "antidote sous linux". Je ne pense pas que ça soit automatique, mais j'ai eu le même quand je leur ait écrit, il y a bien 3 ou 4 ans .
-
-
-
[^]Re: La référence....
Posté par med (page perso, ) le 19/01/2006 à 09:42. (lien). Évalué à 1.Je pense que ça fait référence à la loi 101 : http://fr.wikipedia.org/wiki/Loi_101
-

Les journaux sont destinés à des informations qui ne sont pas suffisamment intéressantes
pour être validées en dépêche (sinon n'hésitez pas à proposer votre information en
dépêche), qui sont sans rapport avec Linux ou le libre, ou simplement pour donner votre
avis. Si vous désirez poser une question, merci d'utiliser 

Cette discussion est archivée, il n'est plus possible de laisser des commentaires.
Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.