GRAC 0.1a : vérificateur grammatical

Posté par maxapoil le 05 février 2005 à 20:04. Modéré par Nÿco.

Étiquettes :

fév.

2005

La première version de GRAC (GRAmmar Checker), un logiciel de correction grammaticale libre écrit en Python, vient de sortir. GRAC, distribué sous licence GPL, se base sur un apprentissage à partir de texte annoté et sans faute pour déduire des règles de grammaires. Il est théoriquement fonctionnel pour n'importe quelle langue.

Pour être performant, GRAC nécessite un corpus d'apprentissage annoté très important. Malheureusement, il n'existe pas à l'heure actuelle un tel corpus sous licence libre.

Aller plus loin

Site officiel (155 clics)
Projet GRAC sur sourceforge (45 clics)

# Ce qu'on dit des cordonniers ...

Posté par Aldoo le 05 février 2005 à 20:17. Évalué à 8.

Vu sur le pdf d'explication :

La correction grammaticale est un véritable enjeux dans le traitement du langage naturel [...]. Cependant le correcteur grammatical infaillible n'a pas encore vu le jour.

... effectivement.
- [^] # Re: Ce qu'on dit des cordonniers ...
  
  Posté par frayd le 05 février 2005 à 20:57. Évalué à 3.
  
  C'est bourré de fautes, et pas des moindres (il y a même un "ortographe" dans le titre du §2.2).
  
  C'est certainement un texte pour tester le logiciel en question :)
  - [^] # Re: Ce qu'on dit des cordonniers ...
    
    Posté par maxapoil le 06 février 2005 à 05:14. Évalué à 3.
    
    Désolé, si vous voulez apporter vos corrections n'hésitez pas à me les envoyer.
    - [^] # Re: Ce qu'on dit des cordonniers ...
      
      Posté par oliv le 07 février 2005 à 14:25. Évalué à 2.
      
      Je viens de trouver 27 fautes sur les 2 premières pages. À quelle adresse dois-je te les envoyer ? à maxime (AT) biais.org ?
- [^] # Re: Ce qu'on dit des cordonniers ...
  
  Posté par peco le 06 février 2005 à 10:29. Évalué à 10.
  
  Il me paraît évident que quelqu'un qui n'aurait aucun problème avec l'orthographe n'aurait pas la motivation pour écrire un correcteur grammatical...
- [^] # Re: Ce qu'on dit des cordonniers ...
  
  Posté par aedrin le 06 février 2005 à 22:00. Évalué à 2.
  
  et vu sur la news :
  
  Il est théoriquement fonctionnel pour n'importe quel langue.
  - [^] # Re: Ce qu'on dit des cordonniers ...
    
    Posté par Éric (site web personnel) le 07 février 2005 à 10:44. Évalué à 2.
    
    Ça c'est une faute du maigre relecteur que je suis. J'ai corrigé une faute et j'ai oublié d'accorder le "quel" avec ce que j'ai corrigé.
    Merci de ne pas le reprocher à l'auteur.
    - [^] # Re: Ce qu'on dit des cordonniers ...
      
      Posté par aedrin le 07 février 2005 à 10:55. Évalué à 1.
      
      langage->langue, I presume?
      Je ne reproche rien au travail de l'auteur ni à celui des relecteurs, je fais comme toi : je positive le schlimilibilick...de
# Correcteur 101

Posté par Infernal Quack (site web personnel) le 05 février 2005 à 20:59. Évalué à 10.

Sniff :,(
Dommage que Correcteur 101 n'existe plus. C'était un vrai correcteur grammaticale totalement bluffant et qui expliquait chaque faute commise mais il s'est bronsorisé :-/
L'association LinuxFr ne saurait être tenue responsable des propos légalement repréhensibles ou faisant allusion à l'évêque de Rome, au chef de l'Église catholique romaine ou au chef temporel de l'État du Vatican et se trouvant dans ce commentaire
- [^] # Re: Correcteur 101
  
  Posté par Pierre Jarillon (site web personnel) le 09 février 2005 à 02:11. Évalué à 4.
  
  Correcteur 101 est un logiciel propriétaire. Il risque de disparaitre à tout jamais. Sa mise sous GPL sauverait certainement cet excellent logiciel.
  André Pascual m'a parlé d'un très bon logiciel graphique freeware, sans équivalent et qui n'évolue plus depuis des années. Personne ne semble en posséder le code et son auteur est introuvable.
  
  Peut-être ces auteurs sont-ils morts ? Dans ce cas, si ils avaient mis leur code sous GPL leurs logiciels aurait pu leur survivre très, très longtemps.
  - [^] # Re: Correcteur 101
    
    Posté par ZeroHeure le 09 février 2005 à 19:57. Évalué à 2.
    
    un très bon logiciel graphique freeware
    c'est lequel ?
    "La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay
# Miam

Posté par Larry Cow le 05 février 2005 à 22:55. Évalué à 7.

\begin{private}

Des SCIAs des bois qui font du Python. Excellente nouvelle, les gars, montrez-leur qu'il y a pas que le C++ dans la vie. Bon courage pour la suite, en tous cas ;)

\end{private}

Sérieusement, il n'y aurait pas moyen de lancer un appel à contribution pour le corpus? Constituer une base de donnée importante, c'est typiquement le genre de tâche faisable par les non-programmeurs de la communauté (par les programmeurs aussi, en fait (enfin ça dépend, pour le corpus "sans faute", c'est moins certain (je déconne)(par contre j'adore le lisp))).

Le plus dur serait probablement de valider les données soumises après coup, mais enfin ça se tente, non? Un wiki, quelqu'un? =)
- [^] # Re: Miam
  
  Posté par spongurex le 05 février 2005 à 23:18. Évalué à 1.
  
  Sérieusement, il n'y aurait pas moyen de lancer un appel à contribution pour le corpus?
  
  Idée en l'air : Wikipédia peut être une bonne base de départ non ? Il y a pas mal de texte et je pense que dans l'ensemble il est correct.
  - [^] # Re: Miam
    
    Posté par Larry Cow le 05 février 2005 à 23:24. Évalué à 6.
    
    Base de départ, ça peut être une idée. Correct, par contre je parierais pas sur ce coup-là.
    
    J'ai pas encore lu le papier de nos deux compères, mais je parie fort que quand ils demandent un corpus "correct", c'est correct à 100%-sans-exception-même-sur-les-petits-détails-chiants-de-la-langue-française-genre-"indicatif après après que", et ce genre de choses. Non?
    
    Parce que, si Wikipedia est certainement moins truffé de faute que le premier skyblog qui traine, par contre c'est loin d'être un modèle.
  - [^] # Re: Miam
    
    Posté par M le 06 février 2005 à 00:16. Évalué à 10.
    
    Non wikipedia n'est pas une bonne source, par contre les textes dispo sur le projet gutenberg (http://www.gutenberg.org/(...)) doivent l'etre. Par contre je pense que des textes ne lui suffisent pas, il doit lui falloir un format specifique pour lui "apprendre" la grammaire.
  - [^] # Re: Miam
    
    Posté par Beretta_Vexee le 06 février 2005 à 04:40. Évalué à 9.
    
    Je suis un contributeur de Wikipédia donc non comme base de départ pour des textes grammaticalement correcte il doit y avoir mieux ;-)
- [^] # Re: Miam
  
  Posté par maxapoil le 07 février 2005 à 12:44. Évalué à 3.
  
  J'avais eut cette idée de faire une interface web qui propose des phrases tirées de divers documents aléatoirement que chaque visiteur pourrait taggué pendant son temps libre :). Le problème est qu'il faut que cet ensemble de contributions soit sans aucune erreur, et il faudrait donc des relecteurs de "confiance".
  
  La tache de relecture prend autant de temps que le fait d'étiquetter des phrases. C'est pour cela que j'ai abandonné cette idée.
  - [^] # Re: Miam
    
    Posté par Olivier Grisel (site web personnel) le 07 février 2005 à 19:13. Évalué à 5.
    
    La tache de relecture prend autant de temps que le fait d'étiquetter des phrases.
    
    AMA, c'est pas vrai. Je suis sur que nos amis relecteurs officiels élevés au grain en plein air puis sélectionnés sur concours et accrédités par l'Académie Française, seraient ravis de ne pas avoir à toucher à leur clavier pour valider les 7 phrases sur 10 correctement annotées par de vulgaires contributeurs volontaires :)
    
    Je suis aussi persuadé que le vulgaire contributeur de batterie s'abstiendrait d'annoter une phrase dont il n'est pas sur de la grammaire à 100%, laissant ainsi les phrases complexes à des contributeurs plus expérimentés.
    - [^] # Re: Miam
      
      Posté par maxapoil le 07 février 2005 à 21:10. Évalué à 2.
      
      J'espère que tu as raison, de toute façon on ne pourra le savoir qu'en experimentant. Quelqu'un a poster un lien sur Rosetta, je vais y jeter un oeil pour savoir si on peut l'utiliser ou l'adapter facilement pour ce genre de travaux.
  - [^] # Re: Miam
    
    Posté par Space_e_man (site web personnel) le 07 février 2005 à 23:32. Évalué à 5.
    
    Le problème est qu'il faut que cet ensemble de contributions soit sans aucune erreur, et il faudrait donc des relecteurs de "confiance".
    
    Si un même texte est annoté par plusieurs personnes, il est possible d'automatiser la détection d'erreurs, et de là, pondérer les différents utilisateurs afin de déterminer la probabilité d'erreur et d'améliorer la détection aussi. L'intervention de personnes de confiance peut alors être fortement réduite. (me semble-t-il...)
    
    Aussi, je me demandais dans quelle mesure la génération de textes annotés pouvait également faire l'affaire. J'imagine que les textes annotés doivent être divers et variés... Mais à quel point ? Et quid donc de la pertinence de cette idée ?
    - [^] # Re: Miam
      
      Posté par maxapoil le 08 février 2005 à 00:31. Évalué à 1.
      
      C'est vrai que faire annoter plusieurs fois la même phrase par des contributeurs différents est une bonne idée.
      
      Pour générer un texte tu dois avoir une base de règles et un dictionnaire. Cette base de règles c'est précisement ce que l'on cherche a déterminer par apprentissage sur le corpus annoté.
      
      Vous m'avez donner envie d'initier la construction de ce corpus, je suis en train de developper l'outil permettant aux contributeurs d'annoter des phrases, j'espere avoir le temps de le terminer rapidement.
      - [^] # Re: Miam
        
        Posté par Alex G. le 08 février 2005 à 08:31. Évalué à 2.
        
        Super idée. Surtout qu'à mon avis même si au début le corpus est imparfait il pourra au moins permettre de faire des tests de montée en charge du Grac.
      - [^] # Re: Miam
        
        Posté par maxapoil le 08 février 2005 à 18:00. Évalué à 3.
        
        j'ai commencé le developpement de l'outils, il me parait anti-ergonomique et je n'y connais rien en interface web.
        
        Vous pouvez voir la tête de la bête ici: http://www.biais.org/ct
        
        Si des gens on des idées pour le rendre plus agréables, les commentaires sont les bienvenues.
        
        [^] # Re: Miam
        
        Posté par Frédéric Lopez le 08 février 2005 à 18:36. Évalué à 4.
        
        Moi ça me paraît pas mal du tout en première approche. Maintenant il ne reste plus qu'à remplir les listes de sélection et à alimenter la bête avec des textes et ce sera parfait... À l'usage, on verra si l'interface a besoin d'être améliorée ou pas.
        
        [^] # Re: Miam
        
        Posté par TeXitoi (site web personnel) le 08 février 2005 à 19:05. Évalué à 3.
        
        Je suis d'accord.
        
        Il peut peut-etre etre utile de classer les propositions avec le dictionnaire : les tags dans le dictionnaire d'abord.
        
        En tout cas, je suis près à contribuer.
# Oeuvres du domaine publique

Posté par monsieur ploploop le 05 février 2005 à 23:32. Évalué à 10.

Est-ce qu'on ne pourrais pas utiliser les oeuvres tombées dans le domaine publique comme celles receuillies par le projet gutenberg pour consituer ce corpus ? J'imagine que ces éditions sont réputées grammaticalement corectes, non ?

En espérant ne pas avoir dis de connerie...
- [^] # Re: Oeuvres du domaine publique
  
  Posté par srm le 05 février 2005 à 23:42. Évalué à 1.
  
  +1.
  Je pensais à la même chose (à savoir d'oeuvres dans le domaine publique).
  
  Mais je ne savais pas quoi citer comme exemple :-)
  - [^] # Re: Oeuvres du domaine publique
    
    Posté par Ju. le 06 février 2005 à 01:44. Évalué à 5.
    
    Notre-Dame-de-Paris
    Les Trois mousquetaires
    Germinal
    Le Tour du monde en 80 jours
    Les Misérables
    Le Rouge et le Noir
    
    Pour ceux là je viens de les trouver ici : http://www.livresse.com/(...)
    
    Ceci : http://maupassant.free.fr/(...) comme son nom l'indique...
    
    ...
    - [^] # Re: Oeuvres du domaine publique
      
      Posté par srm le 06 février 2005 à 02:32. Évalué à 0.
      
      De toutes façon je sais pas si je suis nul ou quoi.
      Mais j'ai essayé de me servir de grac.
      Pour qu'il ingurgite un texte, visiblement c'est pas implanté.
      Pour qu'il en corrige un (visiblement il y a une mini-base d'après ce que j'ai cru comprendre).
      Et j'ai des erreurs partout :')
      
      Donc une dépèche même secondaire pour un logiciel en 0.1 même pas à peine fonctionnel je trouve ça douteux.
      
      Cependant si je me trompe et que le logiciel est un minimum fonctionnel oubliez donc ma précédente phrase.
      - [^] # Re: Oeuvres du domaine publique
        
        Posté par Alexis Muller le 06 février 2005 à 17:32. Évalué à 10.
        
        Bah moi je trouve que si on attend qu'un logiciel libre qui peut intéresser beaucoup de monde soit fonctionnel avant d'en parler, on risque de l'attendre ancore plus longtemps...
    - [^] # Re: Oeuvres du domaine publique
      
      Posté par Veiovis le 06 février 2005 à 15:18. Évalué à 5.
      
      J'ajouterais la Comédie Humaine:
      http://lolita.unice.fr/~brunet/BALZAC/balzac.htm
      
      Elle est pratiquement entièrement retranscrite à partir des éditions de la Pléiade. A mon avis, ils seraient d'accord pour une telle utilisation...
      
      Il y a aussi Rabelais, mais là, je pense que la correction grammaticale en souffrirait! Exemple:
      "[...] bellicqueux , et triumphans François : les quelz interrogez par [...]"
      :-)
      
      Au passage, je pense que même Balzac et les autres classiques écrivent dans un français qui n'est plus correct.
      - [^] # Re: Oeuvres du domaine publique
        
        Posté par Sylvain Sauvage le 07 février 2005 à 23:30. Évalué à 2.
        
        Au passage, je pense que même Balzac et les autres classiques écrivent dans un français qui n'est plus correct.
        
        Ouaip, réformes de l'Académie obligent.
        
        Rappelons que la Vieille Dame réforme à chaque édition (comprendre qu'elle n'attend pas qu'un ministre de l'Éducation fasse du foin).
        
        [^] # Re: Oeuvres du domaine publique
        
        Posté par Pierre Jarillon (site web personnel) le 09 février 2005 à 02:18. Évalué à 5.
        
        Tu parles du ministre en jupons qui confond le genre de la fonction avec le genre de la personne ? Elle voulait même donner des leçons aux académiciens, quelle outrecuidance...
- [^] # Re: Oeuvres du domaine publique
  
  Posté par maxapoil le 06 février 2005 à 05:13. Évalué à 7.
  
  En réalité la théorie se base sur 2 types de corpus: le premier dit "annoté" et le second qui se doit d'étre sans erreur de grammaire.
  
  Un corpus annoté c'est un texte dont chaque mot doit étre annoté (taggué en franglais). Par exemple dans la phrase: "je suis une vache", le mot "suis" sera annoté par "verbe conjugué à la premiere personne du singulier", le mot "vache" par "nom commun singulier feminin", etc...
  
  Le problème de la construction de corpus annoté est qu'il faut obligatoirement le faire à la main (en tout cas, on ne peut faire qu'une infime partie du travail automatiquement avec des règles simples propres a chaque langue). Les gens qui effectuent se genre de travail n'ont pas vraiment envie de le fournir à tout le monde et de l'ouvrir (et c'est bien dommage pour nous).
  
  On espère avoir des nouvelles du LIMSI (www.limsi.fr) qui travaille sur le traitement du langage naturel et qui donc est susceptible d'être en possession de ce genre de corpus.
  
  Pour le second corpus j'en écrirait un peu plus long demain quand j'aurais dormit et évacuer mes 3 grammes.
  - [^] # Re: Oeuvres du domaine publique
    
    Posté par Olivier Grisel (site web personnel) le 06 février 2005 à 10:18. Évalué à 8.
    
    En reprenant les idees precedentes, ca serait pas mal de fabriquer un corpus communautaire annoté via un site web dedié (au hasard celui de GRAC :) Il faudrait faire une interface à la rosetta ( https://launchpad.ubuntu.com/rosetta(...) ), mais au lieu de traduire des bouts de phrases, on les annoterait via une interface dédiée. Le texte serait basé sur une oeuvre tombée dans le domaine publique dont la grammaire de l'auteur a suffisamment bonne réputation :)
    
    Le contributeur moyen aidé d'un rappel des règles de grammaires principales pourrait faire avancer le projet dès qu'il a 5 minutes de libres.
    
    En tout cas, bon courage pour le projet GRAC, c'est vraiment le genre de projet qui manque en ce moment.
  - [^] # Re: Oeuvres du domaine publique
    
    Posté par sebmondet le 06 février 2005 à 11:15. Évalué à 3.
    
    Peut être que tu as déjà essayé, mais tu connais TreeTagger ?
    http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/Decisio(...)
    
    c'est un lemmatiseur (donc sensé annoter ton texte grammaticalement).
    
    c'est pas libre (mais gratuit pour Linux), mais ça peut quand même t'aider ?
    
    Je m'en étais servi il y a un bout de temps, et je me souviens de résultats assez bons...
  - [^] # Re: Oeuvres du domaine publique
    
    Posté par Éric (site web personnel) le 06 février 2005 à 12:53. Évalué à 3.
    
    Sans ouvrir les corpus, est-ce qu'il ne serait pas possible d'avoir un accord pour les utiliser en interne et initialiser la bête ?
    Le corpus resterait secret (sic) mais le correcteur pourrait en profiter. Si on leur garanti que le résultat est libre d'utilisation et qu'en plus il aura le nom de leur labo dans les docs et copyright, ça peut peut être les intéresser.
    - [^] # Re: Oeuvres du domaine publique
      
      Posté par maxapoil le 07 février 2005 à 12:50. Évalué à 2.
      
      Une fois l'apprentissage effectué sur le corpus avec GRAC, il serait possible de détourner GRAC pour retrouver le corpus d'origine. Meme si le corpus n'est pas ouvert, la licence serait certainement très permissive.
  - [^] # Re: Oeuvres du domaine publique
    
    Posté par maxapoil le 07 février 2005 à 12:59. Évalué à 1.
    
    Concernant le second corpus, les règles de grammaires étant déduites de celui-ci, il faut que les tournures de phrases du corpus d'apprentissage soient les mêmes que les tournures de phrases du textes à corriger.
    
    Les auteurs classiques utilisent des tournures de phrases très particulièrent, très peu usités en nos temps modernes. Si l'apprentissage ne se fait que sur ce genre de texte, certaines des règles déduites pourront nous sembler bizarre.
    
    Bien sur la plus part des règles les plus simples seront apprises (ex: "un verbe qui suit un groupe nominal masculin pluriel doit être conjugué à la troisième personne pluriel")
    - [^] # Re: Oeuvres du domaine publique
      
      Posté par Alex G. le 08 février 2005 à 08:49. Évalué à 3.
      
      Je dis peut-être une bétise mais je ne vois pas ce qui nous empècherais d'utiliser des textes qui ne sont pas du domaine publique pour le second corpus. Le problème serait seulement de ne pas pouvoir les publier, autrement dit ce n'est pas libre, si l'on considère la base d'init faisant partie des sources.
      Sinon on pourrait recopier des phrases exemples de livres de grammaires ou de bouquins scolaires qui théoriquement devraient être assez proche du langage recherché et bien corrigés. Peut-on aussi trouver des manuels scolaires hors copyright (à vos greniers).
      Pour s'affranchir du copyright on peut aussi imaginer de copier des phrases individuellement (disons par exemple en prenant un phrase sur dix et en mélangeant), je pense que ça doit être permi (à vérifier).
      Ce qui est intéressant c'est que dans un premier temps, même si le corpus reste à améliorer on peut avoir un correcteur qui aide déjà beaucoup et au fur et à mesure le corpus peut-être amélioré.
      Quid de passer le correcteur sur son propre corpus (qui pourrait y trouver des fautes à cause de redondances).
      Enfin, il me semble que si Grac arrive à un niveau d'utilisation dans un logiciel tel thunderbird ou ooo, il serait intéressant d'y intégrer un outil de feedback qui permettrait de signaler des erreurs faites par la bestiole.
      Bon courage...
# le projet qui tue

Posté par Antoine le 06 février 2005 à 14:46. Évalué à 2.

Je ne suis pas habitué aux enthousiasmes prématurés, mais à lire la description du projet je pense qu'il est bigrement prometteur. Allez-y, foncez !

(désolé pour ce message peu informatif)
# Un projet indispensable, mais ...

Posté par pada le 06 février 2005 à 16:09. Évalué à 4.

Disposer d'un correcteur grammatical est important. C'est par ailleurs le genre de projet qui devrait être lancé ou supporté par nos gouvernements.
Le besoin est réel, par exemple le gouvernement du Québec (et il n'est pas le seul) dépense pas mal d'argent pour la révision de ses textes mais coupe dramatiquement sur les postes de secrétariat qui assuraient une certaine qualité des textes produits dans ses bureaux. Les universités et collèges ont aussi un grand besoin dans ce domaines (du prof à l'étudiant en passant par l'administrateur). Donc le besoin existe, condition no 1 pour qu'un projet libre émerge.
Ces mêmes organisations ont des ressources diffuses mais considérables qui pourraient être dirigées vers ce projet: condition no 2 pour l'émergence d'un projet libre. Je pense à ces deux organisations que je connais car à elles-seules elles justifient un tel projet, mais bien sûr sans vouloir limiter un tel projet à elles.
Mais il y a trois autres conditions pour l'émergence:
- la qualité de l'architecture de départ liée aux compétences de l'initiateur
- le leadership, crédibilité ou charisme de l'initiateur
- une première version suffisamment bien faite et attractive pour que l'on puisse adhérer au projet, plutôt que de chercher un autre projet ou d'en lancer un soi-même.
Je ne suis pas sûr, à la lecture du site et du document, que ces 3 autres conditions soient satisfaites : pas de référence (hormis celle du LIMSI), qualité douteuse du texte, ... . Mais je dois dire que ce n'est pas mon domaine donc je ne peux pas bien juger. Cependant avec l'information disponible pour le moment je n'y mettrais (si j'étais responsable de ce domaine dans une grande administration) pas encore de l'énergie, même si j'espère qu'un tel projet lève.
# Pourquoi ne pas commencer par les gens compétants ?

Posté par Joris Dedieu (site web personnel) le 06 février 2005 à 16:44. Évalué à 4.

Je suis d'accord sur le fait que la communauté est capable "d'éduquer" ce logiciel de façon satisfaisante. Ceci dit, pourquoi ne pas commencer par demander aux gens dont c'est le métier de le faire :
- démarcher dans les facs
- démarcher chez les instituteurs
- démarcher les structures de la Francophonie
- démarcher Bled, Grevisse, Robert, Larousse...
- demander à Pivot :-\
- démarcher l'Academie Française :-(

Même si on est à peu près certain de ce prendre des vestes, ce serait dommage de ne pas essayer...
- [^] # Re: Pourquoi ne pas commencer par les gens compétants ?
  
  Posté par David Douard le 06 février 2005 à 22:23. Évalué à 6.
  
  Demander à la délégation générale à la langue française ?
  http://www.culture.gouv.fr:80/culture/dglf(...)
# Génial !

Posté par HoloAddict le 06 février 2005 à 22:43. Évalué à 3.

Vivement que ça soit utilisable et intégrable dans OOo et autre logiciel de texte !
La grammaire m'enlève quelques points dans mes dissert de philo faites sous OOo (^_^)

En tout cas bravo, un correcteur grammatical est une chose qui manquait sérieusement dans le libre et dans l'adoption d'OOo en particulier. Combien d'entreprise choississent StarOffice pour cela ou combien de lycée propose Word ? Si seulement ça pouvais faire bouger les choses. Je rêve de pouvoir modifier mes disserts sxw au lycée !
# Quelques liens

Posté par strop le 07 février 2005 à 10:10. Évalué à 4.

Le projet a l'air sympa et on ne peut qu'apprécier l'effort.
Ceci étant dit, le domaine du Traitement Automatique des Langues
est très vaste et les choses sont loin d'être aussi simples que ce qu'on pourrait penser à première vue.
Tu pourras trouver des liens intéressants sur le site de l'atala: http://www.atala.org/(...)
Il y a également un gros projet en python sur lequel à mon avis tu as tout intérêt à te poser, c'est NLTK: http://nltk.sourceforge.net/(...) (en plus, il contient déjà un certain nombre de ressources (nltk-data)).
- [^] # Re: Quelques liens
  
  Posté par Olivier Grisel (site web personnel) le 07 février 2005 à 17:19. Évalué à 2.
  
  NLTK est un projet libre en python très pratique en effet. Mais attention, les ressources (nltk-data) ne sont pas toutes sous des licences libres. Elles ont chacunes leur propre licence: à vérifier au cas par cas ...
# Trouvé sur une des mailing liste d'Openoffice.org :

Posté par forensic le 07 février 2005 à 13:02. Évalué à 6.

Voici un message posté sur une des listes d'Openoffice.org :

Bonjour à tous,

OOo possède un correcteur orthographique. Il manque un correcteur
grammatical.

Je vous informe qu'Indesko lance un projet de recherche en collaboration
avec l'Université Stendhal - Grenoble III pour initier les travaux dans
ce domaine.
Celà se traduit par une coopération entre le departement de Traitement
automatique de la langue (dont un stage de dernière année de Master) et
Indesko dans le cadre de ses projets de R&D.

L'objectif est d'obtenir à moyen terme à un correcteur grammatical libre
adapté à la langue francaise et intégré à OOo.

Dans un premier temps, sur la base de moteurs de correction grammaticale
existants, l'objectif est d'en selectionner un adapté au francais et
d'établir des règles couvrant les erreurs les plus courantes
Pour l'instant deux moteurs libres sont retenus. Je suis preneur de
toute autre piste.
- language tool de Daniel Naber
- an Gramadoir de Kevin P. Scannel

Je vous tiendrai informé de l'avancée ainsi que Myriam dont ce sera
l'objectif du stage. Un site et une liste de discussion vont être tout
prochainement mis en place.

Vous serez surement (nous l'espérons en tout cas) sollicités d'ici
quelques temps pour faire quelques tests ! :-)

N'hesitez pas si vous avez de suggestions.

Laurent
--
Laurent Godard <lgodard@indesko.com> - Ingénierie OpenOffice.org
Indesko >> http://www.indesko.com(...)
Nuxeo CPS >> http://www.nuxeo.com(...) - http://www.cps-project.org(...)
Livre "Programmation OpenOffice.org", Eyrolles 2004

---------------------------------------------------------------------
To unsubscribe, e-mail: dev-unsubscribe@fr.openoffice.org
For additional commands, e-mail: dev-help@fr.openoffice.org
- [^] # Re: Trouvé sur une des mailing liste d'Openoffice.org :
  
  Posté par Laurent Godard le 07 février 2005 à 13:39. Évalué à 4.
  
  Bonjour,
  
  Je confirme que le projet démarre
  A noter que le projet Bresilien d'OpenOffice.org a également proposé son aide avec CoGro, son travail en cours sur un correcteur pt-BR pour OOo
  Je vais inclure Grac dans le processus d'analyse. J'espère que celà amenera quelques ressources à ce projet prometteur
  
  Laurent
# Et chez Bescherelles

Posté par ZeroHeure le 09 février 2005 à 20:31. Évalué à 4.

jene sais pas si c'est utile,mais le site du Bescherelles propose des exercices commentés sur les pièges du français (et aussi de l'anglais et l'espagnol).
C'est là : http://www.bescherelle.com/tests.php(...)
"La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay
# Correcteur grammatical existant en GPL

Posté par Pablo Saratxaga le 13 février 2005 à 01:37. Évalué à 5.

Ce serait une bonne idée d'ajouter un lien vers

http://borel.slu.edu/gramadoir/(...)

à la dépêche; il s'agit du seul correcteur grammatical
fonctionnel et sous GPL que je connaisse; bien que
pour le momment il ne supporte vraimment que
l'irlandais il le supporte complètement, et donc ça
pourraît être très enrichissant de voir comment fonctionnent
les deux projets et avoir des échanges d'idées.
il a aussi des interfaces pour OOo notamment.

la façon de fonctionner de "An Gramadóir" est différente
de celle de GRAC, il ne s'agit pas d'apprendre tout seul
les règles à partir d'un corpus annoté colossal,
mais de fournir une liste de mots annotés (des listes de
mots annotés n'existent pas (sauf pour l'irlandais) mais
des listes de mots assez complètes existent (voir aspell)
des quelles partir, le travail d'annotation est moindre que
celui d'annoter un corpus varié de 1.000.000 de mots)
et une liste de règles de grammaire.

Il devraît être possible, en modifiant an gramadóir,
d'annoter un corpus pour une langue supportée
(puisque c'est que fait an gramadóir en interne) et
ainsi fournir le corpus annoté necessaire pour GRAC.
Ce serait interessant de voir comment GRAC est
capable de déduire les règles de grammaire de l'irlandais
et de voir les taux de réussite de an gramadóir et GRAC
pour un même texte.

Voilà, j'espère que les spécialistes des deux projets
se mettront en contact pour essayer d'avancer plus vite,
c'est effectivemment quelque chose qui manque cruellement
en logiciel libre.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.