La première version de GRAC (GRAmmar Checker), un logiciel de correction grammaticale libre écrit en Python, vient de sortir. GRAC, distribué sous licence GPL, se base sur un apprentissage à partir de texte annoté et sans faute pour déduire des règles de grammaires. Il est théoriquement fonctionnel pour n'importe quelle langue.
Pour être performant, GRAC nécessite un corpus d'apprentissage annoté très important. Malheureusement, il n'existe pas à l'heure actuelle un tel corpus sous licence libre.
Aller plus loin
# Ce qu'on dit des cordonniers ...
Posté par Aldoo . Évalué à 8.
La correction grammaticale est un véritable enjeux dans le traitement du langage naturel [...]. Cependant le correcteur grammatical infaillible n'a pas encore vu le jour.
... effectivement.
[^] # Re: Ce qu'on dit des cordonniers ...
Posté par frayd . Évalué à 3.
C'est certainement un texte pour tester le logiciel en question :)
[^] # Re: Ce qu'on dit des cordonniers ...
Posté par maxapoil . Évalué à 3.
[^] # Re: Ce qu'on dit des cordonniers ...
Posté par oliv . Évalué à 2.
[^] # Re: Ce qu'on dit des cordonniers ...
Posté par peco . Évalué à 10.
[^] # Re: Ce qu'on dit des cordonniers ...
Posté par aedrin . Évalué à 2.
Il est théoriquement fonctionnel pour n'importe quel langue.
[^] # Re: Ce qu'on dit des cordonniers ...
Posté par Éric (site web personnel) . Évalué à 2.
Merci de ne pas le reprocher à l'auteur.
[^] # Re: Ce qu'on dit des cordonniers ...
Posté par aedrin . Évalué à 1.
Je ne reproche rien au travail de l'auteur ni à celui des relecteurs, je fais comme toi : je positive le schlimilibilick...de
# Correcteur 101
Posté par Infernal Quack (site web personnel) . Évalué à 10.
Dommage que Correcteur 101 n'existe plus. C'était un vrai correcteur grammaticale totalement bluffant et qui expliquait chaque faute commise mais il s'est bronsorisé :-/
L'association LinuxFr ne saurait être tenue responsable des propos légalement repréhensibles ou faisant allusion à l'évêque de Rome, au chef de l'Église catholique romaine ou au chef temporel de l'État du Vatican et se trouvant dans ce commentaire
[^] # Re: Correcteur 101
Posté par Pierre Jarillon (site web personnel) . Évalué à 4.
André Pascual m'a parlé d'un très bon logiciel graphique freeware, sans équivalent et qui n'évolue plus depuis des années. Personne ne semble en posséder le code et son auteur est introuvable.
Peut-être ces auteurs sont-ils morts ? Dans ce cas, si ils avaient mis leur code sous GPL leurs logiciels aurait pu leur survivre très, très longtemps.
[^] # Re: Correcteur 101
Posté par ZeroHeure . Évalué à 2.
c'est lequel ?
"La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay
# Miam
Posté par Larry Cow . Évalué à 7.
Des SCIAs des bois qui font du Python. Excellente nouvelle, les gars, montrez-leur qu'il y a pas que le C++ dans la vie. Bon courage pour la suite, en tous cas ;)
\end{private}
Sérieusement, il n'y aurait pas moyen de lancer un appel à contribution pour le corpus? Constituer une base de donnée importante, c'est typiquement le genre de tâche faisable par les non-programmeurs de la communauté (par les programmeurs aussi, en fait (enfin ça dépend, pour le corpus "sans faute", c'est moins certain (je déconne)(par contre j'adore le lisp))).
Le plus dur serait probablement de valider les données soumises après coup, mais enfin ça se tente, non? Un wiki, quelqu'un? =)
[^] # Re: Miam
Posté par spongurex . Évalué à 1.
Idée en l'air : Wikipédia peut être une bonne base de départ non ? Il y a pas mal de texte et je pense que dans l'ensemble il est correct.
[^] # Re: Miam
Posté par Larry Cow . Évalué à 6.
J'ai pas encore lu le papier de nos deux compères, mais je parie fort que quand ils demandent un corpus "correct", c'est correct à 100%-sans-exception-même-sur-les-petits-détails-chiants-de-la-langue-française-genre-"indicatif après après que", et ce genre de choses. Non?
Parce que, si Wikipedia est certainement moins truffé de faute que le premier skyblog qui traine, par contre c'est loin d'être un modèle.
[^] # Re: Miam
Posté par M . Évalué à 10.
[^] # Re: Miam
Posté par Beretta_Vexee . Évalué à 9.
[^] # Re: Miam
Posté par maxapoil . Évalué à 3.
La tache de relecture prend autant de temps que le fait d'étiquetter des phrases. C'est pour cela que j'ai abandonné cette idée.
[^] # Re: Miam
Posté par Olivier Grisel (site web personnel) . Évalué à 5.
AMA, c'est pas vrai. Je suis sur que nos amis relecteurs officiels élevés au grain en plein air puis sélectionnés sur concours et accrédités par l'Académie Française, seraient ravis de ne pas avoir à toucher à leur clavier pour valider les 7 phrases sur 10 correctement annotées par de vulgaires contributeurs volontaires :)
Je suis aussi persuadé que le vulgaire contributeur de batterie s'abstiendrait d'annoter une phrase dont il n'est pas sur de la grammaire à 100%, laissant ainsi les phrases complexes à des contributeurs plus expérimentés.
[^] # Re: Miam
Posté par maxapoil . Évalué à 2.
[^] # Re: Miam
Posté par Space_e_man (site web personnel) . Évalué à 5.
Si un même texte est annoté par plusieurs personnes, il est possible d'automatiser la détection d'erreurs, et de là, pondérer les différents utilisateurs afin de déterminer la probabilité d'erreur et d'améliorer la détection aussi. L'intervention de personnes de confiance peut alors être fortement réduite. (me semble-t-il...)
Aussi, je me demandais dans quelle mesure la génération de textes annotés pouvait également faire l'affaire. J'imagine que les textes annotés doivent être divers et variés... Mais à quel point ? Et quid donc de la pertinence de cette idée ?
[^] # Re: Miam
Posté par maxapoil . Évalué à 1.
Pour générer un texte tu dois avoir une base de règles et un dictionnaire. Cette base de règles c'est précisement ce que l'on cherche a déterminer par apprentissage sur le corpus annoté.
Vous m'avez donner envie d'initier la construction de ce corpus, je suis en train de developper l'outil permettant aux contributeurs d'annoter des phrases, j'espere avoir le temps de le terminer rapidement.
[^] # Re: Miam
Posté par Alex G. . Évalué à 2.
[^] # Re: Miam
Posté par maxapoil . Évalué à 3.
Vous pouvez voir la tête de la bête ici: http://www.biais.org/ct
Si des gens on des idées pour le rendre plus agréables, les commentaires sont les bienvenues.
[^] # Re: Miam
Posté par Frédéric Lopez . Évalué à 4.
[^] # Re: Miam
Posté par TeXitoi (site web personnel) . Évalué à 3.
Il peut peut-etre etre utile de classer les propositions avec le dictionnaire : les tags dans le dictionnaire d'abord.
En tout cas, je suis près à contribuer.
# Oeuvres du domaine publique
Posté par monsieur ploploop . Évalué à 10.
En espérant ne pas avoir dis de connerie...
[^] # Re: Oeuvres du domaine publique
Posté par srm . Évalué à 1.
Je pensais à la même chose (à savoir d'oeuvres dans le domaine publique).
Mais je ne savais pas quoi citer comme exemple :-)
[^] # Re: Oeuvres du domaine publique
Posté par Ju. . Évalué à 5.
Les Trois mousquetaires
Germinal
Le Tour du monde en 80 jours
Les Misérables
Le Rouge et le Noir
Pour ceux là je viens de les trouver ici : http://www.livresse.com/(...)
Ceci : http://maupassant.free.fr/(...) comme son nom l'indique...
...
[^] # Re: Oeuvres du domaine publique
Posté par srm . Évalué à 0.
Mais j'ai essayé de me servir de grac.
Pour qu'il ingurgite un texte, visiblement c'est pas implanté.
Pour qu'il en corrige un (visiblement il y a une mini-base d'après ce que j'ai cru comprendre).
Et j'ai des erreurs partout :')
Donc une dépèche même secondaire pour un logiciel en 0.1 même pas à peine fonctionnel je trouve ça douteux.
Cependant si je me trompe et que le logiciel est un minimum fonctionnel oubliez donc ma précédente phrase.
[^] # Re: Oeuvres du domaine publique
Posté par Alexis Muller (site web personnel) . Évalué à 10.
[^] # Re: Oeuvres du domaine publique
Posté par Veiovis . Évalué à 5.
http://lolita.unice.fr/~brunet/BALZAC/balzac.htm
Elle est pratiquement entièrement retranscrite à partir des éditions de la Pléiade. A mon avis, ils seraient d'accord pour une telle utilisation...
Il y a aussi Rabelais, mais là, je pense que la correction grammaticale en souffrirait! Exemple:
"[...] bellicqueux , et triumphans François : les quelz interrogez par [...]"
:-)
Au passage, je pense que même Balzac et les autres classiques écrivent dans un français qui n'est plus correct.
[^] # Re: Oeuvres du domaine publique
Posté par Sylvain Sauvage . Évalué à 2.
Ouaip, réformes de l'Académie obligent.
Rappelons que la Vieille Dame réforme à chaque édition (comprendre qu'elle n'attend pas qu'un ministre de l'Éducation fasse du foin).
[^] # Re: Oeuvres du domaine publique
Posté par Pierre Jarillon (site web personnel) . Évalué à 5.
[^] # Re: Oeuvres du domaine publique
Posté par maxapoil . Évalué à 7.
Un corpus annoté c'est un texte dont chaque mot doit étre annoté (taggué en franglais). Par exemple dans la phrase: "je suis une vache", le mot "suis" sera annoté par "verbe conjugué à la premiere personne du singulier", le mot "vache" par "nom commun singulier feminin", etc...
Le problème de la construction de corpus annoté est qu'il faut obligatoirement le faire à la main (en tout cas, on ne peut faire qu'une infime partie du travail automatiquement avec des règles simples propres a chaque langue). Les gens qui effectuent se genre de travail n'ont pas vraiment envie de le fournir à tout le monde et de l'ouvrir (et c'est bien dommage pour nous).
On espère avoir des nouvelles du LIMSI (www.limsi.fr) qui travaille sur le traitement du langage naturel et qui donc est susceptible d'être en possession de ce genre de corpus.
Pour le second corpus j'en écrirait un peu plus long demain quand j'aurais dormit et évacuer mes 3 grammes.
[^] # Re: Oeuvres du domaine publique
Posté par Olivier Grisel (site web personnel) . Évalué à 8.
Le contributeur moyen aidé d'un rappel des règles de grammaires principales pourrait faire avancer le projet dès qu'il a 5 minutes de libres.
En tout cas, bon courage pour le projet GRAC, c'est vraiment le genre de projet qui manque en ce moment.
[^] # Re: Oeuvres du domaine publique
Posté par sebmondet (site web personnel) . Évalué à 3.
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/Decisio(...)
c'est un lemmatiseur (donc sensé annoter ton texte grammaticalement).
c'est pas libre (mais gratuit pour Linux), mais ça peut quand même t'aider ?
Je m'en étais servi il y a un bout de temps, et je me souviens de résultats assez bons...
[^] # Re: Oeuvres du domaine publique
Posté par Éric (site web personnel) . Évalué à 3.
Le corpus resterait secret (sic) mais le correcteur pourrait en profiter. Si on leur garanti que le résultat est libre d'utilisation et qu'en plus il aura le nom de leur labo dans les docs et copyright, ça peut peut être les intéresser.
[^] # Re: Oeuvres du domaine publique
Posté par maxapoil . Évalué à 2.
[^] # Re: Oeuvres du domaine publique
Posté par maxapoil . Évalué à 1.
Les auteurs classiques utilisent des tournures de phrases très particulièrent, très peu usités en nos temps modernes. Si l'apprentissage ne se fait que sur ce genre de texte, certaines des règles déduites pourront nous sembler bizarre.
Bien sur la plus part des règles les plus simples seront apprises (ex: "un verbe qui suit un groupe nominal masculin pluriel doit être conjugué à la troisième personne pluriel")
[^] # Re: Oeuvres du domaine publique
Posté par Alex G. . Évalué à 3.
Sinon on pourrait recopier des phrases exemples de livres de grammaires ou de bouquins scolaires qui théoriquement devraient être assez proche du langage recherché et bien corrigés. Peut-on aussi trouver des manuels scolaires hors copyright (à vos greniers).
Pour s'affranchir du copyright on peut aussi imaginer de copier des phrases individuellement (disons par exemple en prenant un phrase sur dix et en mélangeant), je pense que ça doit être permi (à vérifier).
Ce qui est intéressant c'est que dans un premier temps, même si le corpus reste à améliorer on peut avoir un correcteur qui aide déjà beaucoup et au fur et à mesure le corpus peut-être amélioré.
Quid de passer le correcteur sur son propre corpus (qui pourrait y trouver des fautes à cause de redondances).
Enfin, il me semble que si Grac arrive à un niveau d'utilisation dans un logiciel tel thunderbird ou ooo, il serait intéressant d'y intégrer un outil de feedback qui permettrait de signaler des erreurs faites par la bestiole.
Bon courage...
# le projet qui tue
Posté par Antoine . Évalué à 2.
(désolé pour ce message peu informatif)
# Un projet indispensable, mais ...
Posté par pada . Évalué à 4.
Le besoin est réel, par exemple le gouvernement du Québec (et il n'est pas le seul) dépense pas mal d'argent pour la révision de ses textes mais coupe dramatiquement sur les postes de secrétariat qui assuraient une certaine qualité des textes produits dans ses bureaux. Les universités et collèges ont aussi un grand besoin dans ce domaines (du prof à l'étudiant en passant par l'administrateur). Donc le besoin existe, condition no 1 pour qu'un projet libre émerge.
Ces mêmes organisations ont des ressources diffuses mais considérables qui pourraient être dirigées vers ce projet: condition no 2 pour l'émergence d'un projet libre. Je pense à ces deux organisations que je connais car à elles-seules elles justifient un tel projet, mais bien sûr sans vouloir limiter un tel projet à elles.
Mais il y a trois autres conditions pour l'émergence:
- la qualité de l'architecture de départ liée aux compétences de l'initiateur
- le leadership, crédibilité ou charisme de l'initiateur
- une première version suffisamment bien faite et attractive pour que l'on puisse adhérer au projet, plutôt que de chercher un autre projet ou d'en lancer un soi-même.
Je ne suis pas sûr, à la lecture du site et du document, que ces 3 autres conditions soient satisfaites : pas de référence (hormis celle du LIMSI), qualité douteuse du texte, ... . Mais je dois dire que ce n'est pas mon domaine donc je ne peux pas bien juger. Cependant avec l'information disponible pour le moment je n'y mettrais (si j'étais responsable de ce domaine dans une grande administration) pas encore de l'énergie, même si j'espère qu'un tel projet lève.
# Pourquoi ne pas commencer par les gens compétants ?
Posté par Joris Dedieu (site web personnel) . Évalué à 4.
- démarcher dans les facs
- démarcher chez les instituteurs
- démarcher les structures de la Francophonie
- démarcher Bled, Grevisse, Robert, Larousse...
- demander à Pivot :-\
- démarcher l'Academie Française :-(
Même si on est à peu près certain de ce prendre des vestes, ce serait dommage de ne pas essayer...
[^] # Re: Pourquoi ne pas commencer par les gens compétants ?
Posté par David Douard . Évalué à 6.
http://www.culture.gouv.fr:80/culture/dglf(...)
# Génial !
Posté par HoloAddict (site web personnel) . Évalué à 3.
La grammaire m'enlève quelques points dans mes dissert de philo faites sous OOo (^_^)
En tout cas bravo, un correcteur grammatical est une chose qui manquait sérieusement dans le libre et dans l'adoption d'OOo en particulier. Combien d'entreprise choississent StarOffice pour cela ou combien de lycée propose Word ? Si seulement ça pouvais faire bouger les choses. Je rêve de pouvoir modifier mes disserts sxw au lycée !
# Quelques liens
Posté par strop . Évalué à 4.
Ceci étant dit, le domaine du Traitement Automatique des Langues
est très vaste et les choses sont loin d'être aussi simples que ce qu'on pourrait penser à première vue.
Tu pourras trouver des liens intéressants sur le site de l'atala: http://www.atala.org/(...)
Il y a également un gros projet en python sur lequel à mon avis tu as tout intérêt à te poser, c'est NLTK: http://nltk.sourceforge.net/(...) (en plus, il contient déjà un certain nombre de ressources (nltk-data)).
[^] # Re: Quelques liens
Posté par Olivier Grisel (site web personnel) . Évalué à 2.
# Trouvé sur une des mailing liste d'Openoffice.org :
Posté par forensic . Évalué à 6.
Bonjour à tous,
OOo possède un correcteur orthographique. Il manque un correcteur
grammatical.
Je vous informe qu'Indesko lance un projet de recherche en collaboration
avec l'Université Stendhal - Grenoble III pour initier les travaux dans
ce domaine.
Celà se traduit par une coopération entre le departement de Traitement
automatique de la langue (dont un stage de dernière année de Master) et
Indesko dans le cadre de ses projets de R&D.
L'objectif est d'obtenir à moyen terme à un correcteur grammatical libre
adapté à la langue francaise et intégré à OOo.
Dans un premier temps, sur la base de moteurs de correction grammaticale
existants, l'objectif est d'en selectionner un adapté au francais et
d'établir des règles couvrant les erreurs les plus courantes
Pour l'instant deux moteurs libres sont retenus. Je suis preneur de
toute autre piste.
- language tool de Daniel Naber
- an Gramadoir de Kevin P. Scannel
Je vous tiendrai informé de l'avancée ainsi que Myriam dont ce sera
l'objectif du stage. Un site et une liste de discussion vont être tout
prochainement mis en place.
Vous serez surement (nous l'espérons en tout cas) sollicités d'ici
quelques temps pour faire quelques tests ! :-)
N'hesitez pas si vous avez de suggestions.
Laurent
--
Laurent Godard <lgodard@indesko.com> - Ingénierie OpenOffice.org
Indesko >> http://www.indesko.com(...)
Nuxeo CPS >> http://www.nuxeo.com(...) - http://www.cps-project.org(...)
Livre "Programmation OpenOffice.org", Eyrolles 2004
---------------------------------------------------------------------
To unsubscribe, e-mail: dev-unsubscribe@fr.openoffice.org
For additional commands, e-mail: dev-help@fr.openoffice.org
[^] # Re: Trouvé sur une des mailing liste d'Openoffice.org :
Posté par Laurent Godard . Évalué à 4.
Je confirme que le projet démarre
A noter que le projet Bresilien d'OpenOffice.org a également proposé son aide avec CoGro, son travail en cours sur un correcteur pt-BR pour OOo
Je vais inclure Grac dans le processus d'analyse. J'espère que celà amenera quelques ressources à ce projet prometteur
Laurent
# Et chez Bescherelles
Posté par ZeroHeure . Évalué à 4.
C'est là : http://www.bescherelle.com/tests.php(...)
"La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay
# Correcteur grammatical existant en GPL
Posté par Pablo Saratxaga (site web personnel) . Évalué à 5.
http://borel.slu.edu/gramadoir/(...)
à la dépêche; il s'agit du seul correcteur grammatical
fonctionnel et sous GPL que je connaisse; bien que
pour le momment il ne supporte vraimment que
l'irlandais il le supporte complètement, et donc ça
pourraît être très enrichissant de voir comment fonctionnent
les deux projets et avoir des échanges d'idées.
il a aussi des interfaces pour OOo notamment.
la façon de fonctionner de "An Gramadóir" est différente
de celle de GRAC, il ne s'agit pas d'apprendre tout seul
les règles à partir d'un corpus annoté colossal,
mais de fournir une liste de mots annotés (des listes de
mots annotés n'existent pas (sauf pour l'irlandais) mais
des listes de mots assez complètes existent (voir aspell)
des quelles partir, le travail d'annotation est moindre que
celui d'annoter un corpus varié de 1.000.000 de mots)
et une liste de règles de grammaire.
Il devraît être possible, en modifiant an gramadóir,
d'annoter un corpus pour une langue supportée
(puisque c'est que fait an gramadóir en interne) et
ainsi fournir le corpus annoté necessaire pour GRAC.
Ce serait interessant de voir comment GRAC est
capable de déduire les règles de grammaire de l'irlandais
et de voir les taux de réussite de an gramadóir et GRAC
pour un même texte.
Voilà, j'espère que les spécialistes des deux projets
se mettront en contact pour essayer d'avancer plus vite,
c'est effectivemment quelque chose qui manque cruellement
en logiciel libre.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.