LinuxFr.org : les contenus étiquetés avec « orthographe_et_grammaire »

Logiciel pour correcteur d'orthographe et/ou grammatical

2022-08-14T17:30:02+02:00

Bonjour,

Je fais actuellement un rapport de stage, mais plutôt que de passer par reverso avec ses 400/500 caractères par requête de correction je voudrais passer par un correcteur libre (si possible pas besoin de l'installer).

Avec Grammalecte inclus dans LibreOffice, j'ai parfois des fautes qui ne sont pas vérifiées…

Merci d'avance pour les propositions ;)

[EDIT]

J'ai LibreOffice 7.3 et j'utilise des termes non connus par le dictionnaire (API REST, nom d'une entreprise)

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

L’écriture neutre

2017-12-13T13:36:22+01:00

Les problèmes de l’écriture dite « inclusive »

C’est laide

Très.

Cela n’inclut pas toute la monde

Très bien, ça donne de la visibilité aux femmes. Dans quelques années toutes les « non-binaires » et autres « agenres » risquent de venir râler parce qu’elles se sentent exclues, et on va se retrouver à faire comme les gens sur tumblr avec des pronoms idiotes telles que « xir, fær, … », qu’il faudra réussir à intégrer dans l’écriture « inclusive ».

L’accessibilité

C’est très complexe à lire et à écrire (par exemple, sous Windows, à part en installant manuellement la disposition bépo ou quelque chose de similaire, on ne peut pas faire la caractère « · »)

Ça ne résout aucune problème à l’oral (comment prononcer « agriculteur·ice·s » ?)

La point (.) possède déjà une sens (la fin d’une phrase), lui en ajouter une nouvelle est donc plutôt gênante.

L’écriture neutre

J’ai donc décidé de vous proposer la réforme suivante, que j’appelle « écriture neutre ».

Les règles sont simples : les genres disparaissent.

Je pars de la constat suivante : la genre n’a quasiment jamais d’intérêt:

pour toutes les objets inanimées, ça ne sert strictement à rien (quelle est l’intérêt de savoir qu’on dit « une chaise » mais « un tabouret » ?)
il est inutile de préciser la sexe d’une personne dans 99% des phrases que l’on faite.

Il est donc possible de n’utiliser qu’une seule « genre », que l’on appellera « neutre ». Cette genre est extrêmement simple à apprendre puisqu’elle est composée exactement comme la genre féminine dans l’écriture « traditionnelle ».
Ainsi, comme vous avez pu la remarquer jusqu’à maintenant en lisant cette journal, on ne dira plus « Je lis mon gros journal en regardant la télé en attendant que l’avocat m’appelle » mais « Je lis ma grosse journal en regardant la télé en attendant que l’avocate m’appelle ». Les mots comme « un », « le », « mon », « il » disparaissent complètement.

Dans l’exemple précédente, il est à noter qu’on n’a aucune idée de la sexe (ou la genre) de la dite avocate. Cela peut très bien être une femme ou une homme, mais de toute façon on s’en fiche.

Si vraiment on a besoin de signaler la sexe de quelqu’une, il suffit alors de la préciser à l’aide d’autres mots par exemple « la personne de sexe féminine », ou « la singe mâle est en colère » voire même « cette homme est grande ».

Quelques notes supplémentaires

La mot « monsieur » disparait : lorsqu’on salue une personne, elle est inutile de signaler sa sexe présumée (c’est encore une fois inutile, et de plus certaines personnes peuvent se vexer si l’on se trompe, ce qui peut créer de nombreuses problèmes). On utilisera donc uniquement « madame ». « Monsieur et Madame Dupond » deviendra donc « Mesdames Dupond ».

Cette règles à de très nombreuses avantages :

Malgré une petite période d’adaptation, ça devrait être assez simple à apprendre. C’est simplement une réflexe à acquérir, et non pas une toute nouvelle orthographe.
toutes les personnes sont, cette fois, incluses (vu qu’elle n’est aucunement question de genre ou de sexe, même les non-binaires seront ravies)
ça passe très bien à l’oral
pas besoin de trouver une nouvelle caractère sur nos claviers, et toutes les lecteurs pour aveugles et autres s’en sortiront très bien
ça facilite grandement l’apprentissage de la langue pour les étrangers. À l’instar de l’anglais, plus besoin d’apprendre les genres de chaque mots (et Jane Birkin n’aura plus d’excuse pour faire semblant d’inverser la genre des mots alors qu’elle pratique la français depuis des dizaines d’années)

Vous vous demandez sûrement pourquoi j’ai choisi de baser cette genre neutre sur la genre féminine (de l’écriture traditionnelle) : tout simplement pour éviter toutes les remarques des pseudo-féministes qui vont venir râler parce que « si on ne garde que le masculin, c’est encore pire » ou « ça invisibilise les femmes, olala ». Personnellement, je trouve que se baser sur la genre masculine aurait été plus simple, vu qu’elle faisait déjà office de neutre dans l’écriture « traditionnelle ». Ceci étant dit, je ne suis absolument pas fixée, et on peut très bien choisir l’une ou l’autre, les deux me conviennent.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Pour mes problèmes d'orthographe...

2016-03-26T18:47:33+01:00

Cpas grave, l'important c'est de se faire comprendre
J'utilise le correcteur intégré à mon éditeur favori et [Grammalecte](http://www.dicollecte.org/grammalecte/)
Robert, Larousse et Bescherelle sont mes amis !
Je corrige tout en ligne avec le [Wiktionnaire](https://fr.wiktionary.org) et [Sensmotdire](http://sensmotdire.gnunux.info)
Ma vie a changé depuis que j'ai découvert le portail lexical du CNRTL dans les options de recherche de Firefox
J'ai mis un [Kiwix](http://www.kiwix.org/wiki/Main_Page/fr) dans mon moteur
Je me relis souvent et si je veux être sûr de moi, à la fin je demande à quelqu'un
J'augmente la taille des caractères ou j'imprime pour me relire
Je ne fait casiment jamai de fôtes

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Améliorer la correction orthographique et grammaticale sous Emacs

2015-08-19T20:45:19+02:00

Comme je suis en train de continuer la traduction de la seconde édition de Progit et qu'en même temps, des lecteurs me remontent de nombreuses fautes dans ce qui existe déjà, il est grand temps de mettre en route les aides à la rédaction sous mon éditeur favori.

Correction orthographique

Sous Emacs, la solution la plus directe pour la correction et d'utiliser M-x ispell, en ayant au préalable correctement paramétré le module, c'est-à-dire

en ayant installé les paquets hunspell et hunspell-fr
en ayant paramétré le module ispell pour utiliser hunspell

Pour éliminer les sections inintéressantes de la vérification dans le cas d'un document asciidoc, on peut ajouter au ~/.emacs

(add-to-list 'ispell-skip-region-alist
             '("^\\[source" . "^----\n\n") ;; source exerpts
         '("\\[\\[" . "\\]\\]")        ;; links
         )

hunspell a l'avantage de connaître comment décliner les formes nominales ou verbales. Mais il ne connaît pas tout. Pour Git, par exemple, on utilise à tour de bras les termes commit, rebaser, etc qui ne sont pas dans le dictionnaire par défaut. Et justement, quand on veut ajouter ces nouveaux mots on ne veut sûrement pas avoir à en saisir toutes les formes.

C'est là où hunspell dans emacs offre vraiment la possibilité de renseigner ces nouveaux mots sous forme intelligente. Supposons que nous ayons saisi le texte :

Dans Git, il y a deux façons d'intégrer les commits d'une branche dans une autre : en fusionnant (`merge`) et en rebasant (`rebase`).

Le lancement de M-x ispell bloque en premier sur Git. C'est un mot à ajouter au dictionnaire. Dans les propositions, on peut appuyer sur i, pour simplement insérer le mot tel quel dans mon dictionnaire personnel.

Ensuite, il bloque sur commits, qu'on pourrait tout à fait intégrer comme tel, mais pour lequel on a intérêt à ajouter la forme au singulier. Qu'à cela ne tienne ! Au lieu de presser i, pressons m, ce qui permet de saisir la forme sous laquelle on veut entrer le nouveau mot dans le dictionnaire. Ici, c'est avec hunspell qu'il faut s'arranger. Dans le dictionnaire personnel, on peut saisir une entrée en utilisant la forme <mot racine>\<mot modèle du dictionnaire>.

Dans hunspell tel que renseigné par dicollecte,

les noms communs sont intégrés sous leur forme féminine singulière si elle existe,
sous leur forme masculin singulier sinon,
les verbes sont intégrés sous la forme infinitive.

Ici, on a donc intérêt à saisir commit/stage, ce qui signifie que le mot commit peut être décliné comme stage, donc au pluriel commits comme dans notre texte. On fait d'une pierre deux coups pour le vocabulaire. En plus, si on demande à hunspell d'analyser ce mot, il sera correctement étiqueté comme un nom masculin pluriel, ce qui peut être utilisé pour une vérification grammaticale.

Un peu plus loin, hunspell bloque sur merge, et là, on ne veut pas le faire entrer dans le dictionnaire, mais juste l'ignorer. On appuie sur si on veut l'ignorer juste cette fois, ou sur a, pour l'autoriser pour tout le reste de la session de correction.

Enfin, on s'arrête sur rebasant, et comme on a pigé le truc, on appuie sur m et on propose rebaser/recaser, ce qui autorise la forme participe présent en cours. Cette correction autorise de même la forme rebase en fin de texte, ainsi que toutes les autres formes conjuguées

Un petit hunspell -m sur le fichier montre bien comment les mots ont été intégrés :

—
Git  st:Git
—
commits  st:commit is:pl
—
rebasant  st:rebaser po:ppre

Correction grammaticale

La correction orthographique, c'est bien, mais ça ne corrige pas les erreurs d'accord ou d'homonymes. Pour cela, il faut passer à la version correction grammaticale.

Sous Emacs, je n'ai pas trouvé beaucoup de choix. Il y a LanguageTool qu'on peut coupler à langtool.el.

Télécharger LanguageTool en ligne de commande et le décompresser.
Télécharger langtool.el en clonant le dépôt et en linkant langtool.el sous ~/.emacs.d/lisp
Installer langtool dans le .emacs:

(add-to-list 'load-path "~/.emacs.d/lisp/")
(require 'langtool)
(setq langtool-language-tool-jar "/chemin/vers/LanguageTool-3.0/languagetool-commandline.jar")
(setq langtool-default-language "fr")
(setq langtool-java-bin "/usr/bin/java")
(setq langtool-mother-tongue "fr")

Maintenant on peut démarrer la session de correction avec M-x langtool-check. LanguageTool analyse le buffer et surligne les erreurs qu'il trouve. Même vocabulaire, mêmes effets. Les mots inconnus sont marqués comme faute de frappe.

L'ennui est qu'on ne peut pas tirer parti du travail déjà réalisé pour hunspell. Il faut tout reprendre du début, et LanguageTool ne simplifie pas la vie.

Pour faire accepter et correctement étiqueter les nouveaux mots, il faut à la fois

les ajouter dans le vocabulaire connu. À la différence de hunspell, il faut fournir toutes les formes des mots qu'on entre. Ça se passe, dans le fichier LanguageTool-3.0/org/languagetool/resource/fr/hunspell/spelling.txt : # Words that extend the spell checker. See ignore.txt for words that should be # completely ignored (i.e. not used to create suggestions). commit commits Git rebase rebasage rebaser rebasons rebasez rebasé rebasés rebasées rebasée rebasant
Ensuite, il faut leur donner une signification grammaticale, en renseignant les formes grammaticales dans LanguageTool-3.0/org/languagetool/resource/fr/added.txt # A part-of-speech dictionary that's used additionally to the binary dictionary (*.dict) # File Encoding: UTF-8 # Format: three tab-separated fields: fullform baseform postags Git Git Z Perforce Perforce Z e sp commit commit N m s commits commit N m p rebasage rebasage N m s rebasages rebasage N m p rebasant rebaser V ppr rebase rebaser V ind pres 1 s rebase rebaser V ind pres 3 s rebaser rebaser V inf rebasons rebaser V ind pres 1 p rebasons rebaser V imp pres 1 p rebasez rebaser V imp pres 2 p rebasez rebaser V ind pres 2 p

Les formes grammaticales sont assez explicites. Pour référence, on les retrouve dans LanguageTool-3.0/org/languagetool/resource/fr/tagset.txt

C'est clairement plus lourd que hunspell (éditer d'autres fichiers à côté) et c'est dommage que l'effort déjà consenti ne puisse pas repayer. Les gains sont aussi plus importants, surtout pour les têtes-en-l'air.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Quelques actualités concernant Firefox et FirefoxOS

2015-05-01T14:03:04+02:00

Voici, en vrac, quelques actualités que j'ai relevées concernant Firefox et FirefoxOS :

Le financement participatif de Grammalecte, un correcteur grammatical libre pour Firefox et Thunderbird présenté dans cette dépêche par son auteur est à 40% : il est encore temps de participer (page du projet sur ulule) !
OMTC (OffMainThreadCompositing) devrait enfin être activé sur GNU/Linux dans la version 40 de Firefox (prévue pour le 11 août 2015). Outre quelques avantages à court terme (plus grande fluidité du scrolling par exemple semble t-il), c'est une étape nécessaire pour tout un tas d'autres choses assez poussées techniquement comme ceci ou encore cela qui toutes devraient à terme améliorer l'expérience utilisateur.
TomTom et Mozilla s'associent pour pondre un GPS pour FirefoxOS : presque tout est dit le billet ; je m'interroge sur les termes financiers de l'accord en revanche. L'application, en HTML5 donc, est téléchargeable ici pour FirefoxOS et Firefox pour Android notamment. En attendant une hypothétique version libre en HTML5 basée sur OpenStreetMap, c'est toujours mieux que le GAFA.
Le développeur initial de uBlock (bloqueur de publicités et traqueurs) reprend en main son extension sous l’appellation "uBlock Origin". Il semble par ailleurs que l'arrêt d'AdBlock Edge soit d'ores et déjà programmé. Plus d'infos dans ce billet (NB : on peut aussi utiliser le logiciel Privoxy comme alternative à une extension quelle qu'elle soit).

Voilà !

(crédit illustration)

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Grammalecte, correcteur grammatical

2015-04-22T01:16:44+02:00

Grammalecte est un correcteur grammatical récent (né en janvier 2011), écrit en Python, dédié à la langue française, et, pour l’instant, uniquement disponible pour LibreOffice et OpenOffice. Une campagne de financement participatif est lancée pour porter Grammalecte sur Firefox et Thunderbird et en faire par ailleurs un serveur indépendant (voir plus bas). Cette dépêche peut donc intéresser tous ceux qui s’intéressent à la grammaire.

lien nᵒ 1 : Site officiel
lien nᵒ 2 : Campagne de financement participatif

Sommaire

Principes de fonctionnement
Pourquoi la correction grammaticale est difficile
Campagne de financement
Autres considérations
Le mot de la fin

Grammalecte est un dérivé de Lightproof, un correcteur écrit initialement pour le hongrois. Le logiciel s’est peu à peu éloigné de Lightproof avec les années. Même si Lightproof a été conçu pour gérer diverses langues, j’ai eu besoin de modifier nombre de choses dans le moteur interne pour le rendre efficace pour le français. Sans cela, pas grand-chose n’aurait été possible.

Ce correcteur est né un peu par hasard. En 2010, j’avais décidé de m’occuper de la partie française de LanguageTool, avec réticence, car je n’aime ni le Java et ni le XML dans lequel sont écrites les règles de grammaire. Par ailleurs, je voulais contrôler le processus de création des règles de contrôle. Or, à l’époque, LanguageTool possédait de nombreuses règles que je n’aimais pas, qui généraient beaucoup de faux positifs, mais il eût été indélicat d’envoyer à la benne tout ce qui me déplaisait. Enfin, comme je ne pouvais pas non plus ajuster certaines règles typographiques comme je l’aurais voulu (le développement étant centralisé, il fallait convaincre), j’ai finalement laissé tomber et je me suis penché sur Lightproof, qui avait l’avantage de fournir un kit minimal à partir duquel je pouvais faire comme je l’entendais. Je voulais me concentrer sur l’essentiel, éviter autant que possible les faux positifs, et être assez strict sur les questions typographiques. J’ai d’abord travaillé pour moi, surtout par curiosité, afin de voir ce qui était possible.

Après pas mal de déboires divers, la première version alpha paraît en janvier 2011 et connaît un petit succès d’estime. Du coup, bien que je n’avais pas vraiment l’intention de me consacrer à ça, j’ai mis le doigt dans l’engrenage.

Principes de fonctionnement

D’une manière générale, Grammalecte est un correcteur utilisant les motifs de correspondance (“pattern matching”) pour détecter les erreurs. Il examine le texte qu’on lui passe en se basant sur une liste de règles de contrôle, qu’il faut bien sûr écrire à l’avance parce que le correcteur ne peut pas deviner ce qui est une erreur, il ne fait pas de suppositions. Pour savoir à quoi correspondent les mots, il se base sur un lexique qui lui indique leur nature grammaticale. Les règles de contrôle sont décrites par un motif de détection d’erreur, des conditions d’application, un message informatif et si possible des suggestions. (Détecter une erreur et suggérer une correction sont deux choses plus distinctes qu’il n’y paraît. Suggérer peut s’avérer plus difficile que détecter une erreur, je reviendrai sur ce point plus tard.)

Un motif de détection est une expression régulière plus ou moins complexe. Une fois un motif détecté, il est en général nécessaire de faire une analyse plus poussée des éléments, notamment en examinant la nature grammaticale des mots du motif repéré, ce qui se fait par d’autres expressions régulières. Bref, on lance des expressions rationnelles tous azimuts, tout le temps. Les conditions d’application et l’analyse des motifs trouvés se font avec du code ad hoc en Python, simple ou complexe, c’est selon.

La difficulté de fonctionner avec des motifs de correspondance, c’est que les règles à écrire sont innombrables, tant l’écriture d’une langue humaine recèle de possibilités, tant le nombre d’erreurs possibles est grand. Par ailleurs, les faux positifs (ou fausses alertes) sont très difficiles à éviter. Car, s’il est facile d’écrire une règle pour détecter une erreur dans un contexte donné, il est difficile d’écrire une règle valable pour tous les cas de figure possibles.

L’atout de Grammalecte pour faire face à l’explosion combinatoire des possibilités, c’est son préprocesseur de texte.

Le préprocesseur de texte est un outil qui transforme en interne le texte à corriger. Il le modifie pour simplifier le travail des règles de contrôle. Pour ce faire, il dispose de règles de transformation qui sont décrites par un motif de détection, des conditions d’application et une chaîne ou une fonction de remplacement.

Néanmoins, toutes les transformations ne peuvent être mises en œuvre en une seule fois. C’est pourquoi le correcteur va effectuer plusieurs passes sur le texte. Chaque passe s’effectue en deux temps : d’abord l’application des transformations du préprocesseur de texte, puis les règles de contrôle. Ceci permet de simplifier le texte au fur et mesure des analyses et de supprimer les éléments qui ont été vérifiés ou qui n’ont pas besoin de l’être, puis de se concentrer lors de la passe suivante sur d’autres points.

Le correcteur effectue à l'heure actuelle six passes sur le texte. (Théoriquement, il peut en faire un nombre infini, il suffit de spécifier dans le fichier des règles qu’on veut une nouvelle passe et d’écrire de nouvelles instructions.)

La première passe contrôle les paragraphes entiers et sert notamment à vérifier tous les aspects typographiques, les espaces insécables, les guillemets, les espaces surnuméraires.
Après cette première passe, le paragraphe est scindé en phrases.
La seconde et la troisième passe servent à contrôler notamment les accords entre les noms et les adjectifs, les pluriels, le genre, etc.
Les trois passes suivantes vérifient principalement les accords des verbes avec leur sujet, les participes passés, les formes interrogatives ou impératives.

Il n’est pas du tout exclu d’ajouter de nouvelles passes.

Historique des fonctionnalités

Grammalecte n’a pas toujours fonctionné ainsi. Dans la version 0.1, comme Lightproof, il faisait tout le travail en une seule passe, paragraphe par paragraphe. Il m’est vite apparu qu’il serait pratique d’effectuer le contrôle en deux temps, paragraphe par paragraphe, puis phrase par phrase. Et il m’a semblé judicieux de simplifier le texte entre les deux passes. Ainsi naquit la version 0.2, qui prenait déjà pas mal de distance avec Lightproof. Le préprocesseur de texte, qui n’était au commencement qu’une commodité, m’est apparu peu à peu comme un élément essentiel, un outil susceptible de résoudre des problèmes quasi insurmontables sans lui. C’est pourquoi, à partir de la version 0.3, le préprocesseur est devenu la baguette magique avec laquelle une quantité gigantesque de difficultés ont été résolues. À ce stade, le correcteur effectuait déjà cinq passes, et il a fallu plus tard en rajouter une sixième.

Avec la version 0.3 sont apparus les outils annexes : le lexicographe, le formateur de texte, puis le conjugueur.

Le lexicographe et le conjugueur sont deux outils dont le rôle est pédagogique : informer et aider l’utilisateur en cas de doute. Le lexicographe, avec un clic droit, donne de la nature grammaticale de n’importe quel mot. Le conjugueur permet de connaître, là encore en quelques clics, la conjugaison de n’importe quel verbe. Par exemple, un clic droit sur le mot “suis” vous permet d’accéder immédiatement à la conjugaison d’être et de suivre, ce qui évite la peine d’avoir à chercher sur le Net ou dans son dictionnaire. Comme un correcteur grammatical ne saurait corriger toutes erreurs possibles, il m’a toujours paru utile de fournir une aide pédagogique à l’utilisateur, car lui seul peut vraiment décider.

Le formateur de texte est un outil de correction typographique automatisé, qui propose de corriger la plupart des erreurs en un seul clic, même s’il en y a des milliers. Il propose aussi quelques fonctions de nettoyage et de restructuration d’un texte. Cet outil, que je jugeais anecdotique au commencement, est celui qui a suscité le plus d’engouement et que les utilisateurs ont le plus sollicité. Les outils qui bossent tout seul, ça semble beaucoup plaire. ;)

La version 0.4 apporte beaucoup d’améliorations internes, mais surtout des mécanismes de suggestion qui permettent enfin d’offrir dans la plupart des cas autre chose qu’un simple message d’erreur (parfois mystérieux pour ceux qui ne savent plus ce qu’est un COD ou un participe passé).

Comparaison avec LanguageTool

LanguageTool, comme Grammalecte, fonctionne avec des motifs de correspondance (“pattern matching”) chargés de déceler les erreurs. Et les similitudes s’arrêtent là. Dans le détail technique, tout est différent, et ces différences font que le potentiel qu’on peut tirer de ces deux logiciels n’est pas le même.

LanguageTool est très formaliste, il faut écrire des règles en XML. C’est descriptif, rigide et assez contraignant, mais il n’est pas difficile de rentrer dans le code des règles. Tout est assez intelligible, même si c’est verbeux.

Grammalecte, en revanche, est beaucoup moins formaliste, c’est plutôt un vaste chantier en cours de construction, avec pas mal de bizarreries, mais c’est plutôt souple, et on peut se permettre bien plus de fantaisies. En revanche, concernant la lisibilité des règles, disons que ce n’est pas son point fort, car les règles appellent directement du code en Python et il faut toujours garder à l’esprit qu’on analyse un texte qui va être modifié par le préprocesseur de texte. De plus, il faut se plonger dans le code du moteur pour comprendre ce que font certaines fonctions. Par ailleurs, l’ordonnancement des règles est primordial. Si vous déplacez quelque chose sans comprendre comment ça fonctionne et les principes généraux, il est fort probable que vous cassiez quelque chose. Même quand on connaît bien l’ensemble, c’est assez difficile, attendu que les effets de bord ne sont pas toujours évidents à estimer.

LanguageTool ne possède pas de préprocesseur de texte, il lui faut plus de règles de détection que Grammalecte pour faire des choses similaires. Il en faut tellement plus qu’il est peu probable qu’en l’état actuel, LanguageTool puisse faire bien des choses que fait Grammalecte aujourd’hui relativement aisément, car il faudrait écrire énormément de règles.

Mais LanguageTool dispose d’un outil que Grammalecte ne possède pas : un désambiguïsateur. LanguageTool n’effectue qu’une seule passe sur le texte, phrase par phrase. En premier lieu, il découpe les phrases en “tokens” (mots, ponctuations, guillemets, etc.). Puis, grâce à son désambiguïsateur, il fait de la désambiguïsation sur les “tokens” ambigus, c’est-à-dire qu’il détermine la nature grammaticale d’un mot quand il en a plusieurs (par exemple : “est” peut être un nom masculin, une conjugaison du verbe être, un élément d’une locution adverbiale “id est”). En somme, grâce à cet outil, LanguageTool pose des étiquettes explicatives sur les tokens. Puis, il analyse la succession des tokens selon les règles écrites. Il renvoie les erreurs et c’est fini. Ce qu’il faut retenir, c’est que la désambiguïsation permet d’avoir plus de certitudes dans l’analyse du texte.

De son côté, Grammalecte ne découpe pas les phrases en tokens. Dans Grammalecte, il n’y a pas de tokens ni même de mots à proprement parler, il n’y a que des zones de texte définies par des expressions régulières qui servent de déclencheurs pour une analyse spécifique des passages correspondant aux motifs trouvés. On ne travaille pas sur des éléments déterminés à l’avance, mais sur des zones, souvent des mots bien sûr, mais aussi des bouts de phrases ou des motifs de caractères sans nécessairement se soucier des délimitations des mots et de leur position dans le texte (même si on s’en soucie assez souvent comme vous pouvez l’imaginer). Je peux par exemple chercher un motif “ni… ni…” sans me soucier du nombre de “tokens” qu’il pourrait y avoir entre les deux “ni”, sans me soucier où c’est précisément. C’est souple, mais cette souplesse se paye par une plus grande complexité et c’est régulièrement l’occasion de faire des nœuds mentaux pour comprendre ce qui se passe, surtout pour gérer toutes les questions d’apostrophes, de majuscules, de traits d’union, de délimitations des mots (plus problématique que ce que vous pouvez supposer) et divers détails subtils qui n’ont l’air de rien, mais qui compliquent souvent la tâche de manière imprévue. Certains problèmes, on ne les auraient pas, ou seulement à moindre degré, avec des phrases découpées de manière prédictible et uniforme en “tokens”. Cela dit, la tokenisation ne semble pas la solution miracle non plus, si j’en crois ce que j’ai lu parfois sur la liste de discussion de LanguageTool, car il ne semble pas évident de gérer la question des apostrophes et des traits d’union.
Par ailleurs, dans Grammalecte, comme à chaque passe le texte est transformé, un même motif de correspondance ne renverra pas forcément la même chose selon la passe dans lequel il est lancé. Il faut toujours garder à l’esprit où on est dans le flux des règles de transformation et estimer ce qui se passe globalement.
Et, comme il n’y a pas de “tokens” dans Grammalecte, il n’y a pas non plus de désambiguïsateur qui pose des étiquettes sur les mots. Le correcteur fait quand même de la désambiguïsation, mais à la volée, c’est-à-dire que chaque règle se charge elle-même de s’y retrouver parmi les ambiguïtés du texte. C’est un désavantage par rapport à LanguageTool. Ce dernier permet d’écrire des règles dans un environnement plus “sûr” que dans Grammalecte où règnent l’incertitude et le flou. Cela dit, le préprocesseur de texte, encore lui, va nous épargner bien des peines et solutionner nombre de cas difficiles, en faisant faire de la “désambiguïsation” à sa manière, c’est-à-dire en supprimant tout simplement des zones de texte.
Les règles de transformation du préprocesseur de texte consistent pour la très grande majorité à faire du nettoyage, c’est-à-dire à effacer le superflu, ce qui, de fait, nous évite de faire un gros travail d’analyse. Certaines règles de transformation introduisent aussi dans le texte des caractères signalétiques que certaines règles de contrôle savent reconnaître. Et quelques règles servent réellement à modifier ce qui est écrit, là encore pour simplifier. Cette manière de faire apporte beaucoup d’avantages par rapport à LanguageTool, mais dans certains cas s’avère moins efficace que l’étiquetage. Le problème de Grammalecte, c’est une certaine forme d’amnésie, le préprocesseur nettoie et fait parfois du signalement, mais après ça chaque règle se débrouille seule.

Hormis les différences techniques inhérentes aux logiciels, la manière d’écrire les règles peut aussi faire varier grandement leurs capacités de détection. On peut écrire les règles de manière stricte (moins de détection d’erreurs, moins de faux positifs) ou audacieuse (plus de détection, plus de faux positifs). LanguageTool possède des règles de contrôle que je n’ai pas implémentées dans Grammalecte parce que je les trouve trop susceptibles de générer des faux positifs en l’état actuel des choses. Il y a des vérifications que Grammalecte fait que son rival n’essaie pas de faire (trop risqué ou compliqué pour lui). Ensuite, il y a les règles qu’un correcteur peut juger superflues. Par exemple, LanguageTool vérifie si vous écrivez correctement Britney Spears, Warren Buffett et des tas d’autres célébrités, ce que Grammalecte ne prend pas la peine de contrôler.

Le préprocesseur de texte par l’exemple

Mettons que nous tapons dans Writer :
Cette pièces de théâtre-là (http://www.site.fr/blabla) d’Albert Camus² sur «l’absurde» étaient, comme d’habitude, passionnants.

Trois erreurs grammaticales, deux typographiques.

Sachez d’abord que le texte que le correcteur reçoit ne correspond pas toujours au texte que voit l’utilisateur. En effet, les marques de formatage sont effacées. Si vous tapez des passages en italique ou gras, l’italique et le gras vont disparaître. Dans notre exemple, il y a le caractère “²”. Il peut être obtenu en tapant le caractère “²” ou tapant le caractère “2” et en le mettant en exposant. Dans le second cas, la mise en exposant est une marque de formatage. C’est probablement ainsi que l’utilisateur a obtenu ce caractère. Dans ce cas, le correcteur reçoit :
Cette pièces de théâtre-là (http://www.site.fr/blabla) d’Albert Camus2 sur «l’absurde» étaient, comme d’habitude, passionnants.

Autrement dit, même si l’utilisateur voit le caractère “²”, le correcteur reçoit le caractère “2”.

Passe 1. Pour commencer, le préprocesseur de texte va supprimer les URL (entre autres choses).
Cette pièces de théâtre-là (@@@@@@@@@@@@@@@@@@@@@@@@@) d’Albert Camus2 sur «l’absurde» étaient, comme d’habitude, passionnants.

Ensuite, les règles de contrôle vont vérifier les espacements, la ponctuation, les guillemets, etc. C’est lors de la première passe que le correcteur signalera qu’il faut des espaces insécables autour de “l’absurde”.

Passe 2. Les arobases sont supprimées. La note de référence “2” qui suit Camus est supprimée, ainsi que les guillemets. On obtient alors :
Cette pièces de théâtre-là (_________________________) d’Albert Camus_ sur _l’absurde_ étaient, comme d’habitude, passionnants.

Passe 3. C’est dans cette passe qu’on nettoie le plus. On supprime le “-là” qui suit “théâtre”. Le patronyme “Camus” est supprimé. Puis “d’Albert” est supprimé, ainsi que “comme d’habitude”. Puis “pièces de théâtre” est simplifié et réduit à un seul mot : “pièces”. Comme il n’y a plus que du vide entre les parenthèses et les virgules, on les supprime aussi. Ce qui donne :
Cette pièces _________________________________________________________ sur _l’absurde_ étaient __________________ passionnants.

Lors de cette passe, la première erreur d’accord sur “pièces” est repérée.

Passe 4, 5 et 6. Après la 3 ème passe, on considère que les accords dans les groupes nominaux ont été vérifiés. Donc on simplifie les groupes nominaux afin de pouvoir vérifier l’accord avec les verbes. Ce qu’on fera dans les 3 passes suivantes. Ici, “sur l’absurde” est supprimé puisqu’il ne peut être un sujet. Il reste :
Cette pièces _________________________________________________________________________ étaient __________________ passionnants.

À présent, il n’y plus rien à simplifier. Après la correction de “pièce”, le correcteur verra l’erreur sur “étaient” et après la correction de ce dernier, il pourra faire les bonnes suggestions sur “passionnants”.

Ce système n’est pas parfait. Voici un autre exemple.
Les petits étais endormis.

Ici, le correcteur ne détecte rien, car “étais” est aussi un nom masculin pluriel.

D’autres erreurs que le correcteur peut trouver grâce au préprocesseur de texte :
L’homme sur le bateau de Patrick viens de temps en temps mangé chez moi. Ces marchands passe leur temps à se quereller. Ils jugeront en toute impartialité de ce cas délirante. Ils sont de manière si étonnante et si admirable arrivé à ce résultat… Les tests grand public de Jean-Paul montre des résultats surprenants. Ils ont à plusieurs reprises perdus leur sang-froid. Ces attaques à main armée donne la chair de poule. Réfléchir à tête reposée prends du temps. Des chambres plus ou moins fortement éclairé. Ce qui, la plupart du temps, donnes des maux de tête. La N.S.A. espionneras toujours tout le monde.

Avec le dernier exemple, vous verrez l’une des choses que le préprocesseur réécrit pour faciliter le travail du correcteur. En interne, la graphie “N.S.A.” a été transformée en “NSA” (le message d’erreur trahit cette modification).

Le préprocesseur fait aussi de la simplification de certains syntagmes nominaux. Exemples :
armé jusqu’aux dents --> armé fille au pair ---------> fille médecin de garde ------> médecin

Le préprocesseur peut faire énormément de choses, mais il ne peut en l’état actuel résoudre tous les problèmes, car il doit lui-même demeurer prudent quand il fait face à des ambiguïtés. Dans bien des cas, il arrivera à simplifier les groupes nominaux. Dans d’autres cas, il n’y arrivera pas. Il y a encore beaucoup de progrès à faire sur ce chapitre. Concevoir un désambiguïsateur aiderait beaucoup. Un préprocesseur de texte associé à un désambiguïsateur, ce serait une combinaison utile pour accroître notablement la détection des erreurs.

Le dictionnaire

La graphie d’un mot français ne permet pas de déterminer sa nature. Un mot finissant par -ent peut être un nom, un adjectif, un adverbe ou la forme conjuguée d’un verbe. C’est pourquoi un correcteur grammatical ne peut souvent pas grand-chose sans un lexique étiqueté référençant tous les mots d’une langue. Cet étiquetage, c’est la base de la connaissance du correcteur. Le dictionnaire français pour Hunspell, le correcteur orthographique, est actuellement la source directe de Grammalecte.

Quelques données sur le dictionnaire :

plus de 77000 entrées,
toutes les entrées sont grammaticalement étiquetées,
environ 12 % d’entre elles sont sémantiquement étiquetées (médecine, informatique, botanique, etc.), mais cet étiquetage ne sert pas encore. Améliorer la base lexicale et son étiquetage, c’est l’une des tâches les plus importantes de la conception d’un correcteur grammatical.

Ce dictionnaire, vous l’avez probablement tous utilisé, puisqu’il est inclus dans Firefox, Thunderbird, LibreOffice, Chrome, Opera et une multitude de logiciels dont je serais bien en peine de faire la liste si on me la demandait. Cela dit, vous en utilisez peut-être une vieille version, je ne l’intègre qu’à LibreOffice et ne fournit des extensions que pour OpenOffice, Firefox et Thunderbird. L’intégration dans les autres logiciels est faite par d’autres personnes à des rythmes très divers.

Tout le travail sur le dictionnaire se fait sur Dicollecte, où sont collectées les propositions des utilisateurs.

Pourquoi la correction grammaticale est difficile

Commençons par un exemple :
Il est conseiller à la mairie. [Correct] Il est aller à la mairie. [Incorrect]

Pourtant, l’étiquetage grammatical de ces phrases est strictement identique. Les mots “conseiller” et “aller” sont tous les deux à la fois un verbe à l’infinitif et un nom masculin. Or, un correcteur grammatical ne comprend absolument rien à ce que vous écrivez, même si vous ne faites aucune erreur. Il ne peut se baser que sur une suite d’étiquettes grammaticales.

Il est parfois irritant de s’entendre dire : “il y a une erreur ici, c’est évident”. Car, en fait, il y a rarement quoi que ce soit d’évident pour un correcteur grammatical. Le mot “évident” n’est lui-même pas seulement un adjectif, c’est aussi la conjugaison du verbe “évider” à la 3e personne du pluriel au présent. D’une manière générale, il semble souvent facile d’écrire une règle qui détecte les erreurs dans une phrase ou un contexte spécifique. En revanche, il est souvent difficile, voire impossible, d’écrire une règle qui détecte les erreurs dans tous les contextes sans générer nombre de faux positifs. Du coup, l’écriture des règles, c’est très souvent un compromis entre ce qu’on voudrait détecter et la tolérance pour les fausses alertes (la mienne est assez basse).

Autres exemples :
Des caractéristiques matériels [Incorrect] Des matériels caractéristiques [Correct] Des nouvelles caractéristiques [Correct] Des matérielles caractéristiques [Incorrect]

Vous, humains, savez que “caractéristiques” est dans le premier cas un nom féminin. Mais c’est aussi un adjectif épicène. Le correcteur grammatical ne sait pas décider si ce doit être un nom ou un adjectif. Pour lui, “matériel”, “caractéristique” et “nouvelle” sont dans tous les cas nom et adjectif.

Autrement dit, l’étiquetage grammatical ne suffit pas. Seul le sens permet aux humains de trouver les erreurs. Mais, comme je l’ai dit, le correcteur ne comprend rien du tout. Il faudrait prendre le temps d’étiqueter les entrées avec des informations plus spécifiques, susceptibles de nous aider à contextualiser ce qu’on corrige. Une tâche titanesque. Nous en sommes encore loin.

Et ce ne sont là que des exemples très simples, très loin des phrases complexes qu’on peut écrire.

Parmi les difficultés du français, l’une des principales, c’est qu’il y a énormément de mots dont la nature grammaticale dépend du contexte :
tu ________ pronom personnel sujet épicène singulier // participe passé du verbe taire lui _______ pronom personnel sujet masculin // pronom personnel objet masculin et féminin // participe passé du verbe luire sommes ____ forme conjuguée de être // forme conjuguée de sommer // nom féminin ou masculin pluriel ton _______ déterminant // nom masculin son _______ déterminant // nom masculin la ________ déterminant // nom masculin // pronom personnel objet avoir _____ nom masculin // verbe auxiliaire été _______ participe passé du verbe être // nom masculin est _______ forme conjuguée de être // nom masculin // élément d’une locution latine (id est) a _________ forme conjuguée de avoir // nom masculin invariable avions ____ forme conjuguée de avoir // nom masculin pluriel pas _______ adverbe de négation // nom masculin une _______ déterminant // nom féminin (la une des journaux) aura ______ forme conjuguée de avoir // nom féminin as ________ forme conjuguée de avoir // nom masculin contre ____ préposition // nom masculin singulier // forme conjuguée de contrer vers ______ préposition // nom masculin singulier ou pluriel mais ______ conjonction de coordination // adverbe // nom masculin pluriel si ________ conjonction de subordination // adverbe // nom masculin évident ___ adjectif masculin // forme conjuguée de évider dément ____ adjectif masculin // forme conjuguée de démentir prise _____ nom féminin // participe passé de prendre // forme conjuguée de priser courant ___ nom masculin // participe présent de courir // préposition or ________ conjonction de coordination // nom masculin singulier plus ______ adverbe // adverbe de négation // nom masculin point _____ adverbe de négation // nom masculin singulier vis _______ nom féminin // forme conjuguée de voir et de vivre montre ____ nom féminin // forme conjuguée de montrer partis ____ forme conjuguée de partir // participe passé pluriel // nom masculin pluriel vous ______ pronom personnel sujet ou objet. nous ______ idem etc.

Il y a de nombreux mots qui ont plusieurs natures grammaticales, et le correcteur doit trouver laquelle s’applique dans le contexte. Il faut constamment faire attention à ça, sinon c’est d’explosion de faux positifs assurée. Pourtant, malgré les règles de prudence, il y a toujours des faux positifs. Parce que si on ne signalait que les erreurs certaines, on ne signalerait pas grand-chose.

L’autre problème, c’est que les homonymes en français sont nombreux et les confusions pas forcément faciles à détecter.

a / à / as / ha
est / et / es / ai / ait / aie / aies / ais / hé / eh / haie / hais
été / étai / était / étais
dans / d’en / dent
desceller / déceler / desseller
faite / faîte / fête
la / là / l’a / l’as / las
mal / mâle / malle
or / hors
ou / où
on / ont
notre / nôtre
par / part / pare
prêt / près / pré
quand / quant / qu’en
sans / s’en / sens / c’en / cens / sent / cent / sang
serre / serf / sers / cerf
sot / seau / sceau
soi / soie / soit / sois
son / sont
soutien / soutiens / soutient
suis / suie / sui / suit
tort / tore / taure / tord
ver / vers / vert / verre

Ajoutons à cela les conjugaisons homophones :

manger / mangé / mangez / mangeais / mangeait
fus / fut / fût

En bref, la difficulté du français, c’est qu’il est rempli de nombreux mots qui s’écrivent de la même façon avec des natures différentes et de nombreux mots différents qui se prononcent de la même façon et qui engendrent nombre de confusions à l’écrit.

Les manières d’écrire en respectant la grammaire sont extrêmement nombreuses, mais les manières de mal écrire sont illimitées.

Campagne de financement

Pour ceux que ça intéresse, c’est sur Ulule.

Je vais évoquer ici quelques aspects techniques dont je ne parle pas sur Ulule.

Fournir de meilleures suggestions

Détecter les erreurs et suggérer quelle est la bonne graphie sont deux choses bien différentes. Dans certains cas, il est plus facile de détecter les erreurs que de savoir que suggérer. Mais l’inverse est aussi vrai, il existe des erreurs difficiles à détecter où il serait pourtant facile de suggérer la graphie correcte.

Grammalecte parvient à présent à faire des suggestions dans la plupart des cas, mais il reste quand même du travail à faire sur ce point. Prenons un exemple simple, une erreur que j’ai fréquemment vue sur ce site :
Je m’en fou.

Ici, le correcteur voit l’erreur mais est incapable de fournir une suggestion, parce qu’il n’existe aucun lien entre l’entrée “fou” et l’entrée “foutre” d’où dérivent toutes ses conjugaisons. Le correcteur ne sait pas où chercher une conjugaison adéquate. Pour parfaire le système de suggestion, il faudrait établir des passerelles entre tous les mots grammaticalement distincts sur leurs liens phonétiques éventuels.

Évidemment, si on prend la peine d’écrire des règles spécifiques pour gérer les cas particuliers, c’est possible de suggérer correctement, mais ce ne serait guère efficace dans la mesure où les mots homophones sont nombreux. Il faudrait écrire trop de règles.

Améliorer la détection des erreurs

Pour l’instant, si le préprocesseur de texte est déjà très employé, il est encore sous-exploité et on peut aller plus loin, mais cela réclame du temps et beaucoup de tests et de patience. La correction grammaticale est encore grandement améliorable, même si les choses “faciles” à faire sont de moins en moins nombreuses. La simplification des groupes nominaux pourrait être bien meilleure, c’est un vaste chantier qui est entamé depuis environ un an. Le principal obstacle à son renforcement, c’est justement l’absence d’une désambiguïsation efficace.
Il y a encore aussi pas mal de vérifications simples à écrire sur des tas de confusions possibles. Je me suis assez peu occupé de ça jusqu’à présent.

Le développement du correcteur suit depuis le commencement la même logique : une montée en puissance progressive en essayant d’éviter les faux positifs.

Écrire des règles, c’est assez rapide ; détecter les faux positifs, c’est beaucoup plus long ; ceux-ci ont tendance à survenir là où on s’y attend le moins. C’est ce qui est le plus exigeant : maintenir un ensemble de règles, améliorer l’existant, tester, trouver de nouvelles possibilités. Lorsqu’on s’occupe d’un correcteur grammatical, on passe surtout son temps à peaufiner des détails, à ajuster le fonctionnement de l’existant, à arrondir les angles. Oubliez l’idée de concevoir l’algorithme ultime qui saura gérer tous les cas. Même quand on est à peu près sûr d’écrire une petite règle tranquille qui ne générera aucun faux positif, la réalité va très probablement nous rappeler à l’ordre et nous obliger à slalomer sur ce qui paraissait au commencement comme une belle ligne droite. S’occuper de correction grammaticale, c’est marcher sur un chemin pavé d’embûches subtiles.

Désambiguïsation

Bien que le correcteur fasse déjà de la désambiguïsation à sa manière, brutalement, améliorer cet aspect ne serait pas du luxe pour la connaissance du contexte des erreurs. J’hésite encore sur la mise en œuvre. “Tokeniser”, pourquoi pas, mais ce n’est pas ma solution favorite. Utiliser le préprocesseur de texte pour créer un genre de carte signalétique, c’est pas mal, mais ça ressemble à de la bidouille. Employer des trucs et astuces, comme je le fais déjà maintenant, toujours via le préprocesseur de texte, ce n’est pas ce qu’il y a de plus commode, surtout pour l’intelligibilité de l’ensemble des règles. ~~Je n’ai pas encore trouvé une solution simple et efficace.~~ En rédigeant ce billet, une solution plaisante m’est venue. Ce sera un désambiguïsateur multi-passes sans tokenisation. Il fonctionnera en dressant un index de balises grâce des règles de désambiguïsation qui seront exécutées au commencement de chaque passe, avant même le préprocesseur de texte. Il suffira, lors de l’analyse lexicale, que le correcteur interroge en premier lieu cet index. Ce mécanisme devrait accroître grandement la capacité de reconnaissance des erreurs, car le désambiguïsateur diminuera les incertitudes.

Fiabilité des versions (tests unitaires)

Triste à dire, mais il n’y a à l’heure actuelle aucun test unitaire dans Grammalecte. Tout simplement parce que le correcteur est pour l’instant incapable de fonctionner hors de Writer. Les tests faits avant chaque publication se limitent à deux fichiers ODT que j’ouvre dans le traitement de texte : un qui référence les faux positifs éventuels, un autre qui liste des erreurs grammaticales à détecter. J’ouvre encore quelques autres fichiers pour voir si tout va bien. Mais ce n’est pas du tout pratique. Les tests unitaires accéléreraient beaucoup le développement, car les bugs et les régressions seraient détectés aussitôt, ce qui ne serait pas du luxe.

En finir avec la dépendance à Hunspell et à LibreOffice/OpenOffice

La raison pour laquelle Grammalecte est pour l’instant dépendant de LibreOffice/OpenOffice, c’est sa dépendance à Hunspell, le correcteur orthographique, qu’il interroge sans cesse pour connaître la nature grammaticale des mots.

Hunspell remplit sa tâche, mais les informations qu’il fournit sont présentées en vrac. Il faut traiter les données avant de pouvoir les exploiter. Quand vous demandez la nature grammaticale d’un mot, vous récupérez en fait toutes les étiquettes que le dictionnaire contient (et il y en a potentiellement pas mal). Il faut trier. Du coup, pour l’instant, je limite les données incluses dans le dictionnaire aux seules étiquettes grammaticales, afin d’éviter d’alourdir le boulot.

Plutôt que de recréer Hunspell en Python, il est préférable de créer un dictionnaire binaire indexable bâti sous la forme d’un gigantesque graphe de mots, facilement parcourable, ce qu’on peut appeler aussi un automate à états finis.

Un graphe de mots, ça ressemble à ça :

Pour savoir si un mot existe dans un graphe, on part de l’état initial et on suit les arcs représentés par les flèches, et si l’on parvient jusqu’à l’état final, le mot est considéré comme existant. Pour le correcteur, le graphe devra contenir tous les mots du français, et à la suite de chaque mot les informations grammaticales. Cette construction se fait à partir d’un simple fichier texte listant toutes les formes fléchies du français, leur lemme et les étiquettes informatives.

Les principales fonctions de cet automate seront de dire si un mot existe dans le lexique, donner son lemme (“aimer” est le lemme de “aime”), fournir ses étiquettes grammaticales, et éventuellement d’autres. Doté d’un module de suggestion, il peut même servir de correcteur orthographique.

Grammalecte existera bien sûr toujours comme extension pour Writer mais, grâce à cela, il pourra exister comme serveur autonome capable de fournir des corrections grammaticales à tout programme lui passant du texte à analyser, au format JSON. Chaque erreur contiendra les informations suivantes :

position de l’erreur,
type d’erreur (pour les applications qui auraient l’intelligence de souligner avec différentes couleurs),
message explicatif,
suggestion(s),
[optionnellement] hyperlien vers une page explicative plus complète,
identifiant de la règle détectant l’erreur (utile seulement pour le débogage).

Conversion du code en JavaScript pour l’extension Firefox/Thunderbird

Pour rappel, le but est bien d’avoir une extension qui peut fonctionner sans faire appel à un serveur local ou distant. Il faudra tout réimplémenter en JavaScript. Pour Firefox, je voudrais que le correcteur puisse aussi analyser le contenu d’une page web et pas seulement les zones d’édition de texte. Pour l’instant, Firefox, contrairement à LibreOffice et OpenOffice, ne possède pas (encore) d’API pour la grammaire, ce qui complique l’interfaçage avec les utilisateurs, mais ça ne semble pas insurmontable. À part ça, il n’a pas grand-chose à dire si ce n’est qu’il y a des épines et des ronces en perspective.

Autres considérations

Les autres langues ?

Bonne nouvelle ! Même si je n’ai pas l’intention de m’occuper des autres langues, ce qui sera fait pour le français sera également possible pour bien d’autres. L’une des raisons pour lesquelles Lightproof est peu employé, c’est l’absence de ressources lexicales. Lightproof utilise les dictionnaires pour Hunspell, dont bien peu peuvent servir à la correction grammaticale puisque seuls les dictionnaires français et hongrois sont grammaticalement étiquetés. Or, le compilateur de lexique en dictionnaire binaire indexable dont j’ai parlé ci-dessus pourra réutiliser tous les lexiques de LanguageTool. Autrement dit, toutes les langues qui disposent d’un lexique chez LanguageTool pourront utiliser le moteur de Grammalecte.

Et la gestion du dictionnaire ?

Le site qui gère le dictionnaire français a fait son temps. Il est encore utile et assez pratique, mais il pourrait être bien mieux, plus simple notamment. Même s’il n’est pas difficile de participer, il faut quand même un peu de temps pour comprendre la logique. Mais comprendre n’est même pas exigé, il suffit de proposer de nouveaux mots. Malheureusement ça rebute apparemment beaucoup de monde. Les utilisateurs veulent aller vite et ne voient les résultats de leur participation que des mois plus tard, quand une nouvelle version est publiée. Le site est pensé sur un mode cathédrale et non sur un mode bazar. Après des années d’utilisation, j’en vois les limites, et je pense qu’il aurait dû être conçu autrement. Le refonte du site ne fait pas partie de la campagne de financement participatif. Idéalement, j’aimerais avoir un jour le temps de tout réécrire en Python (avec un framework comme Flask) en utilisant un autre concept que celui d’aujourd’hui, permettant une plus grande personnalisation, une plus grande modularité, un contrôle plus simple. C’est un vaste chantier.
Pour pallier ce problème, je prévois de créer dans le correcteur de LibreOffice et de Firefox un assistant qui simplifiera toute la procédure.

Les correcteurs grammaticaux servent-ils à quelque chose ?

Certaines personnes, en général avec une forte estime de leurs connaissances en orthographe et en grammaire, pensent que les correcteurs grammaticaux sont tous mauvais et ne servent à rien, et surtout pas à eux. Cette opinion est en partie légitime et en partie fausse.

Les correcteurs informatiques, ne comprenant rien à ce que vous écrivez, ont bien sûr du mal à détecter les erreurs dans les phrases complexes et parfois même dans des contextes simples. Dans bien des cas, les connaissances en grammaire d’un utilisateur bien instruit lui permettront de trouver plus d’erreurs que le correcteur grammatical.

Néanmoins, ceux qui pensent que connaître la langue parfaitement suffit à ne jamais faillir se trompent, car nombre d’erreurs sont dues à l’inattention, à la fatigue, à des copier-coller mal ajustés, à des défauts de reconnaissance optique. Or, l’ordinateur ne relâche jamais son attention, son œil ne fatigue jamais et il examine même ce qui ne vous vient pas à l’esprit.

Par ailleurs, pour les personnes dont les connaissances sont lacunaires, il peut se révéler pédagogue. Si par exemple vous ne connaissez pas le participe passé du verbe “avoir” (“eu”, que beaucoup écrivent erronément “eut”) ou du verbe “lire” (“lu”, et non “lut”), le correcteur finira immanquablement par trouver des occasions de vous signaler vos erreurs, même s’il peut ne pas toujours les repérer dans les contextes complexes, car il les détectera dans les contextes simples (Erreurs détectées dans “j’ai eut”, “ils n’ont pas eut”, etc.).

Le mot de la fin

Merci de m’avoir lu jusqu’ici.

Il semble que l’orthographe et la grammaire françaises soient de plus en plus ignorées, même des personnes les plus instruites. C’est du moins ce que disent souvent des articles alarmistes. J’ignore si cela est vrai, mais ce que je lis sur le Web m’étonne parfois, tant les bases de la grammaire semblent parfois méconnues. Qu’on ne connaisse pas la conjugaison de tous les verbes, c’est compréhensible, mais confondre “ça” et “sa”, “ce” et “se”, “quand”, “quant” et “qu’en” semble signifier qu’il faudrait une remise à niveau pour pas mal de monde. Cela dit, ce n’est peut-être pas si étonnant si l’on songe que le Web a remis à l’écriture des personnes qui n’écrivaient plus rien depuis fort longtemps.

Si vous pensez que Grammalecte mérite de s’étendre hors de LibreOffice, si vous trouvez que la langue française est maltraitée et qu’il faudrait avoir un outil pour dénicher les erreurs sur le Web, si vous voulez voir des mots normalement rejetés intégrés dans le correcteur, c’est sur Ulule que ça se passe.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Hermaia

2014-04-15T21:01:27+02:00

en bref : Hermaia est un projet (Python3/GPLv3) pour créer et consulter des listes de mots préalablement analysés du point de vue morphologique. Un exemple ici (si vous voyez n'importe quoi, pensez à utiliser l'unicode comme encodage).

Hermaia est un (très modeste) projet (Python3/GPLv3) permettant

de créer une liste de mots accompagnés de leur analyse morphologique. Exactement comme si l'on associait le mot "aimerai" à "aimer"+"futur.3S".
de rechercher un mot et de l'analyser. Ex : est-ce que le mot "aimerai" existe ? Oui, il s'agit d' "aimer"+"futur.3S" .

Un objet Hermaia lit et écrit ses informations dans une base de données MySQL pour la structure de laquelle j'ai dû demander de l'aide.
Il est également possible de demander une image texte (un dump) de la base de données : on obtient alors un fichier texte qu'il est possible de modifier et de retransformer en base de données.

La base de données est gérée par le module sqlite3 : si certains veulement m'aider à utiliser PostgreSQL, je suis preneur.

La recherche se fait par l'intermédiaire d'un buffer qui garde en mémoire les demandes les plus fréquentes.

J'ai essayé d'écrire un code aussi propre que possible : Pylint m'accorde une note de 10/10 au prix de quelques concessions (voir le fichier pylint.rc dans le dépôt).

Comment utiliser Hermaia pour chercher un mot dans la base ?

with sqlite3.connect("database.db") as database:
    with Hermaia(database = database) as h:
        h.search("aimerai")

… ce qui renvoie une liste des occurrences du mot à chercher : dans le cas d' "aimerai", cette liste serait composée d'un seul dict contenant les informations nécessaires.

Comment remplir la base de données ? L'exemple de Phokaia

J'ai développé Hermaia pour servir d'extension au projet Logotheras qui crée des dictionnaires. Comme les articles d'un dictionnaire Logotheras peuvent contenir l'ensemble des formes possibles d'un mot (project inflectiones) il suffit de récupérer le contenu du tableau généré et de l'injecter dans la base de données.
Travaillant principalement sur une ébauche de dictionnaire grec ancien->français j'ai donc récupéré l'ensemble des formes calculées. Le résultat se trouve là. Le résultat me paraît encourageant.

et la suite ?

Je cherche des personnes susceptibles de m'aider à passer de MySQL à PostgreSQL mais aussi des profils plus orientés "lettres" et désireux d'utiliser Hermaia pour leurs projets personnels, pour d'autres langues… Faites-moi signe !

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

démarrer languagetool en tant qu'user [résolu]

2014-02-15T14:52:47+01:00

Bonjour à tous.

Comme certains d'entre vous l'ont remarqué (hélas), je suis très mauvais en orthographe. J'essaye de faire attention, mais cela ne suffit pas. J'ai donc voulu installer languagetool pouvoir l'utiliser sur Firefox, et dans un futur proche vim.
Actuellement pour démarrer le serveur languagetool, je fais « su -c 'languagetool -t' ». Le « -t » permettant de la lancer dans le «system tray». Je suis obligé de le lancer en tant que root, sans doute à cause d'un problème de permission. Le serveur utilise le port 8080. Si je le lance en tant qu'user, il n'y as pas d'erreur dans la console, mais je ne peux pas y accéder à l'aide de l'extension languagetool pour Firefox, ou directement avec son ip.

J'aimerai :
- pouvoir le lancer en que simple user
- le lancer au démarrage

Pour cela, je n'ai trouvé que très peu d'info sur google et duckduckgo. Sur le wiki arch, il semblerait que l'on puisse transformer une application en démon pour pouvoir le lancer avec systemd « systemctl start languagetool », mais je n'ai pas trouvé comment faire.
Merci de votre aide.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Inflectiones, déclinaisons et conjugaisons en grec ancien

2014-02-13T11:33:30+01:00

En bref : inflectiones est une bibliothèque (Python3, GPLv3) qui permet de conjuguer et de décliner des mots. Le travail inverse (analyser un mot pour en dégager les caractéristiques morphologiques) ne m'intéressant pas, n'a pas été codé. Enfin, seuls quelques exemples tirés du grec ancien et de l'esperanto sont disponibles, voyez les exemples ci-dessous. Le projet n'en est qu'à ses débuts et attend du renfort !

lien nᵒ 1 : Inflectiones sur GitHub
lien nᵒ 2 : Phokaia, un dictionnaire utilisant la bibliothèque Inflectiones

Sommaire

(1) buts d'Inflectiones
- (1.1) buts
- (1.2) intérêt
(2) utiliser Inflectiones
- (2.1) créer une simple liste de formes
- (2.2) créer un tableau HTML
(3) quelques résultats en grec ancien
- (3.1) deuxième déclinaison : ἀθηναῖος
- (3.2) verbes thématiques : τρί̄ϐω
(4) installation
(5) fonctionnement d'Inflectiones
(6) et à l'avenir ?

(1) buts d'Inflectiones

(1.1) buts

Dans le cadre de différents projets (comme celui-ci) j'ai eu besoin de récupérer des formes automatiquement fléchies (conjuguées/déclinées) dans quelques langues, dont le grec ancien. La bibliothèque Inflectiones répond à ce problème en renvoyant une liste de formes décrites, d'une part à l'aide de la bibliothèque DChars (trace orthographique), d'autre part à l'aide de la bibliothèque Phoseg (trace phonétique). Une exportation sous forme de tableaux HTML est possible : vous en trouverez deux exemples ci-après.

Inflectiones peut être utilisé pour faire le travail inverse et analyser une forme pour en reconstituer les caractéristiques morphologiques : ayant trop peu de temps à consacrer à ce projet, j'ai volontairement supprimé tout le code permettant de faire de telles analyses car je n'en étais pas satisfait. Si vous étiez intéressés par cette possibilité, faites-le-moi savoir.

(1.2) intérêt

Le point fort de cette bibliothèque est de générer automatiquement des grilles de flexions. S'agissant du grec ancien, son utilisation permet(trait) de réduire les erreurs que je vois souvent dans les tableaux tapés péniblement à la main et qui sont rarement corrigés même quand une erreur est signalée.

J'utilise Inflectiones dans le cadre d'un dictionnaire de grec ancien → français dont les articles sont partiellement remplis par des grilles de flexion construites et par Inflectiones et par les données du dictionnaire : reportez à l'article χρόνος pour en avoir un exemple.

Enfin, il est facile de construire une table inverse associant à une formée donnée sa décomposition grammaticale (ex. en français : aima → aimer::passé simple.3S) : le module Infgrid permet de construire facilement de tels dictionnaires.

(2) utiliser Inflectiones

(2.1) créer une simple liste de formes

Le code suivant …

word = "γεωργός"
infgrid = INFLECTIONES["grc.λόγος"].inflect( input_parameters = {
                                                            "Nsg"           : word,
                                                            "gender"        : "masculine",
                                                                           },
                                                      )
for key in infgrid.gridsv:
    orthophone_objects = infgrid.gridsv[key]
    print(key, 
          orthophone_objects[0].ortho, 
          orthophone_objects[0].phone.get_ipa_representation())

… remplit un objet nommé infgrid de type Infgrid qui est une grille de flexions (ici, un tableau de déclinaison). Dans cet exemple, la flexion nommée grc.λόγος est appelée avec deux paramètres, le nominatif singulier γεωργός et le genre de ce mot.

infgrid.gridsv est par exemple un dictionnaire associant à une clef un objet Phrase qui n'est rien d'autre qu'une liste d'objets OrthoPhone.

o  key est une clef de type string valant par exemple "case=N;number=sg;dialect=att".
o  orthophone_objects[0] est de type Orthophone
o  orthophone_objects[0].ortho est un objet de type DString, une liste d'objets DChars
o  orthophone_objects[0].phone est un objet de type PhoSeg

(2.2) créer un tableau HTML

Si vous écriviez maintenant …

htmldata = INFLECTIONES["grc.λόγος"].inflectAndExportAsHTML( input_parameters = {
                                                            "Nsg"           : "ἀθηναῖος",
                                                            "gender"        : "masculine",
                                                                           },
                                                morphogrid = "fra__grc_logos",
                                                formatstring = "ORTHO [PHONE]",
                                                captiontitle = word,
                                                tableborder = "1",
                                                characters_output = {"grc::ignore makron":True},
                                                      )

… vous obtiendriez du code HTML générant un tableau de type « tableau de grammaire que l'on trouve dans les manuels scolaires ». Pour plus de lisibilité (affichage en console par exemple), le code HTML généré peut être interprété par l'outil w3m à l'aide de la commande : python example.py | w3m -dump -cols 200 -T text/html. C'est ce que j'ai fait pour présenter les deux tableaux suivants, liés au grec ancien.

(3) quelques résultats en grec ancien

Les conjugaisons et déclinaisons du grec ancien sont compliquées à expliquer à un ordinateur : il s'agissait pour moi d'un bon test pour jauger les capacités d'Inflectiones !

S'agissant de la transcription phonétique, elle n'a rien de trivial. Par exemple dans ἀθηναίω [a.t̪ʰɛː.nˈa˧˥.jːɔː], vous pouvez remarquer que la transcription d'αίω est [ˈa˧˥.jːɔː], et non le simple (mais ambigu) [ˈai̯.ɔː].

Les deux seules flexions acceptées pour le moment sont les mots de la deuxième déclinaison et quelques temps des verbes thématiques non contractes et non préfixés; les « accidents phonétiques » (exemples au futur : τρίβω > τρίψω, πείθω > πείσω, …) sont bien intégrées (voyez le résumé des possibilités dans l'en-tête du fichier paideuo.py).

Pour être complet, les tableaux qui suivent présentent, pour chaque forme, et la trace orthographique et la trace phonétique entre crochets (formatstring = "ORTHO [PHONE]"). Il est bien sûr possible de ne retenir que la trace orthographique en spécifiant par exemple formatstring = "ORTHO".

(3.1) deuxième déclinaison : ἀθηναῖος

word = "ἀθηναῖος"
infgrid = INFLECTIONES["grc.λόγος"].inflectAndExportAsHTML( input_parameters = {
                                                            "Nsg"           : word,
                                                            "gender"        : "masculine",
                                                                           },
                                                morphogrid = "fra__grc_logos",
                                                formatstring = "ORTHO [PHONE]",
                                                captiontitle = word,
                                                tableborder = "1",
                                                characters_output = {"grc::ignore makron":True},
                                                      )
print(infgrid)



                                               ἀθηναῖος
┌─────────────┬────────────────────────────┬──────────────────────────────┬──────────────────────────────────┐
│             │singulier                   │duel                          │pluriel                           │
├─────────────┼────────────────────────────┼──────────────────────────────┼──────────────────────────────────┤
│nominatif    │ἀθηναῖος [a.t̪ʰɛː.nˈa˥˧.jːos]│ἀθηναίω [a.t̪ʰɛː.nˈa˧˥.jːɔː]   │ἀθηναῖοι [a.t̪ʰɛː.nˈa˥˧.jːoi̯]      │
├─────────────┼────────────────────────────┼──────────────────────────────┼──────────────────────────────────┤
│vocatif      │ἀθηναῖε [a.t̪ʰɛː.nˈa˥˧.jːe]  │ἀθηναίω [a.t̪ʰɛː.nˈa˧˥.jːɔː]   │ἀθηναῖοι [a.t̪ʰɛː.nˈa˥˧.jːoi̯]      │
├─────────────┼────────────────────────────┼──────────────────────────────┼──────────────────────────────────┤
│accusatif    │ἀθηναῖον [a.t̪ʰɛː.nˈa˥˧.jːon]│ἀθηναίω [a.t̪ʰɛː.nˈa˧˥.jːɔː]   │ἀθηναίους [a.t̪ʰɛː.nˈa˧˥.jːoːs]    │
├─────────────┼────────────────────────────┼──────────────────────────────┼──────────────────────────────────┤
│génitif      │ἀθηναίου [a.t̪ʰɛː.nˈa˧˥.jːoː]│ἀθηναίοιν [a.t̪ʰɛː.nˈa˧˥.jːoi̯n]│ἀθηναίων [a.t̪ʰɛː.nˈa˧˥.jːɔːn]     │
├─────────────┼────────────────────────────┼──────────────────────────────┼──────────────────────────────────┤
│datif        │ἀθηναίῳ [a.t̪ʰɛː.nˈa˧˥.jːɔː] │ἀθηναίοιν [a.t̪ʰɛː.nˈa˧˥.jːoi̯n]│ἀθηναίοις [a.t̪ʰɛː.nˈa˧˥.jːoi̯s]    │
├─────────────┼────────────────────────────┼──────────────────────────────┼──────────────────────────────────┤
│datif(ionien)│                            │                              │ἀθηναίοισι [a.t̪ʰɛː.nˈa˧˥.jːoi̯.si] │
└─────────────┴────────────────────────────┴──────────────────────────────┴──────────────────────────────────┘

(3.2) verbes thématiques : τρί̄ϐω

word = "τρί̄ϐω"
infgrid = INFLECTIONES["grc.παιδεύω"].inflectAndExportAsHTML( input_parameters = {
                                                             "AIndPresent1S" : word,
                                                             "AIndImperfect1S" : None,
                                                             "AIndFuture1S" : None,
                                                             "AIndAorist_no_augment" : None,
                                                             "PIndFuture1S" : None,
                                                             "PIndAorist_no_augment" : None,
                                                       },
                                                morphogrid = "fra__grc_paideuo",
                                                formatstring = "ORTHO [PHONE]",
                                                captiontitle = word,
                                                tableborder = "1",
                                                characters_output = {"grc::ignore makron":True},
                                                      )
print(infgrid)



                                         τρί̄ϐω
┌────────────────────────────────────────────────────────────────────────────────────────────┐
│ACTIF                                                                                       │
├──┬─────────┬───────────────────────────────────────┬───────────────────────────────────────┤
│  │         │                                       │                                       │
│  │         │indicatif                              │infinitif                              │
│  │         │                                       │                                       │
│  │         │                                       │                                       │
│  │         │                                       │                                       │
│  │         │                                       │                                       │
│  │         │                                       │                                       │
├──┼─────────┼───────────────────────────────────────┼───────────────────────────────────────┤
│  │         │τρίϐω [t̪rˈiː˧˥.bɔː]                    │τρίϐειν [t̪rˈiː˧˥.beːn]                 │
│  │présent  │τρίϐεις [t̪rˈiː˧˥.beːs]                 │                                       │
│  │         │τρίϐει [t̪rˈiː˧˥.beː]                   │                                       │
│  │         │τρίϐομεν [t̪rˈiː˧˥.bo.men]              │                                       │
│  │         │τρίϐετε [t̪rˈiː˧˥.be.t̪e]                │                                       │
│  │         │τρίϐουσι [t̪rˈiː˧˥.boː.si]              │                                       │
│  │         │τρίϐετον [t̪rˈiː˧˥.be.t̪on]              │                                       │
│  │         │τρίϐετον [t̪rˈiː˧˥.be.t̪on]              │                                       │
├──┼─────────┼───────────────────────────────────────┼───────────────────────────────────────┤
│1S│         │ἔτριϐον [ˈet̪.riː.bon]                  │                                       │
│2S│imparfait│ἔτριϐες [ˈet̪.riː.bes]                  │                                       │
│3S│         │ἔτριϐε [ˈet̪.riː.be]                    │                                       │
│1P│         │ἐτρίϐομεν [et̪.rˈiː˧˥.bo.men]           │                                       │
│2P│         │ἐτρίϐετε [et̪.rˈiː˧˥.be.t̪e]             │                                       │
│3P│         │ἔτριϐον [ˈet̪.riː.bon]                  │                                       │
│2D│         │ἐτριϐέτην [et̪.riː.bˈe.t̪ɛːn]            │                                       │
│3D│         │ἐτριϐέτην [et̪.riː.bˈe.t̪ɛːn]            │                                       │
├──┼─────────┼───────────────────────────────────────┼───────────────────────────────────────┤
│1S│         │ἔτριψα [ˈet̪.riːp.sa]                   │τρῖψαι [t̪rˈiː˥˧p.sai̯]                  │
│2S│aoriste  │ἔτριψας [ˈet̪.riːp.sas]                 │                                       │
│3S│         │ἔτριψε [ˈet̪.riːp.se]                   │                                       │
│1P│         │ἐτρίψαμεν [et̪.rˈiː˧˥p.sa.men]          │                                       │
│2P│         │ἐτρίψατε [et̪.rˈiː˧˥p.sa.t̪e]            │                                       │
│3P│         │ἔτριψαν [ˈet̪.riːp.san]                 │                                       │
│2D│         │ἐτριψάτην [et̪.riːp.sˈa.t̪ɛːn]           │                                       │
│3D│         │ἐτριψάτην [et̪.riːp.sˈa.t̪ɛːn]           │                                       │
├──┼─────────┼───────────────────────────────────────┼───────────────────────────────────────┤
│1S│         │τρίψω [t̪rˈiː˧˥p.sɔː]                   │τρίψειν [t̪rˈiː˧˥p.seːn]                │
│2S│futur    │τρίψεις [t̪rˈiː˧˥p.seːs]                │                                       │
│3S│         │τρίψει [t̪rˈiː˧˥p.seː]                  │                                       │
│1P│         │τρίψομεν [t̪rˈiː˧˥p.so.men]             │                                       │
│2P│         │τρίψετε [t̪rˈiː˧˥p.se.t̪e]               │                                       │
│3P│         │τρίψουσι [t̪rˈiː˧˥p.soː.si]             │                                       │
│2D│         │τρίψετον [t̪rˈiː˧˥p.se.t̪on]             │                                       │
│3D│         │τρίψετον [t̪rˈiː˧˥p.se.t̪on]             │                                       │
├──┴─────────┴───────────────────────────────────────┴───────────────────────────────────────┤
│PASSIF                                                                                      │
├──┬─────────┬───────────────────────────────────────┬───────────────────────────────────────┤
│  │         │                                       │                                       │
│  │         │indicatif                              │infinitif                              │
│  │         │                                       │                                       │
│  │         │                                       │                                       │
│  │         │                                       │                                       │
│  │         │                                       │                                       │
│  │         │                                       │                                       │
├──┼─────────┼───────────────────────────────────────┼───────────────────────────────────────┤
│  │         │τρίϐομαι [t̪rˈiː˧˥.bo.mai̯]              │τριϐέσθαι [t̪riː.bˈes.t̪ʰai̯]             │
│  │présent  │τρίϐει [t̪rˈiː˧˥.beː]                   │                                       │
│  │         │τρίϐεται [t̪rˈiː˧˥.be.t̪ai̯]              │                                       │
│  │         │τριϐόμεθα [t̪riː.bˈo.me.t̪ʰa]            │                                       │
│  │         │τρίϐεσθε [t̪rˈiː˧˥.bes.t̪ʰe]             │                                       │
│  │         │τρίϐονται [t̪rˈiː˧˥.bon.t̪ai̯]            │                                       │
│  │         │τρίϐεσθον [t̪rˈiː˧˥.bes.t̪ʰon]           │                                       │
│  │         │τρίϐεσθον [t̪rˈiː˧˥.bes.t̪ʰon]           │                                       │
├──┼─────────┼───────────────────────────────────────┼───────────────────────────────────────┤
│1S│         │ἐτριϐόμην [et̪.riː.bˈo.mɛːn]            │                                       │
│2S│imparfait│ἐτρίϐου [et̪.rˈiː˧˥.boː]                │                                       │
│3S│         │ἐτρίϐετο [et̪.rˈiː˧˥.be.t̪o]             │                                       │
│1P│         │ἐτριϐόμεθα [et̪.riː.bˈo.me.t̪ʰa]         │                                       │
│2P│         │ἐτρίϐεσθε [et̪.rˈiː˧˥.bes.t̪ʰe]          │                                       │
│3P│         │ἐτρίϐοντο [et̪.rˈiː˧˥.bon.t̪o]           │                                       │
│2D│         │ἐτρίϐεσθον [et̪.rˈiː˧˥.bes.t̪ʰon]        │                                       │
│3D│         │ἐτριϐέσθην [et̪.riː.bˈes.t̪ʰɛːn]         │                                       │
├──┼─────────┼───────────────────────────────────────┼───────────────────────────────────────┤
│1S│         │ἐτρίφθην [et̪.rˈiː˧˥pʰ.t̪ʰɛːn]           │τριφθῆναι [t̪riːpʰ.t̪ʰˈɛː˥˧.nai̯]         │
│2S│aoriste  │ἐτρίφθης [et̪.rˈiː˧˥pʰ.t̪ʰɛːs]           │                                       │
│3S│         │ἐτρίφθην [et̪.rˈiː˧˥pʰ.t̪ʰɛːn]           │                                       │
│1P│         │ἐτρίφθημεν [et̪.rˈiː˧˥pʰ.t̪ʰɛː.men]      │                                       │
│2P│         │ἐτρίφθητε [et̪.rˈiː˧˥pʰ.t̪ʰɛː.t̪e]        │                                       │
│3P│         │ἐτρίφθησαν [et̪.rˈiː˧˥pʰ.t̪ʰɛː.san]      │                                       │
│2D│         │ἐτρίφθητον [et̪.rˈiː˧˥pʰ.t̪ʰɛː.t̪on]      │                                       │
│3D│         │ἐτριφθήτην [et̪.riːpʰ.t̪ʰˈɛː˧˥.t̪ɛːn]     │                                       │
├──┼─────────┼───────────────────────────────────────┼───────────────────────────────────────┤
│1S│         │τριφθήσομαι [t̪riːpʰ.t̪ʰˈɛː˧˥.so.mai̯]    │τριφθήσεσθαι [t̪riːpʰ.t̪ʰˈɛː˧˥.ses.t̪ʰai̯] │
│2S│futur    │τριφθήσει [t̪riːpʰ.t̪ʰˈɛː˧˥.seː]         │                                       │
│3S│         │τριφθήσεται [t̪riːpʰ.t̪ʰˈɛː˧˥.se.t̪ai̯]    │                                       │
│1P│         │τριφθησόμεθα [t̪riːpʰ.t̪ʰɛː.sˈo.me.t̪ʰa]  │                                       │
│2P│         │τριφθήσεσθε [t̪riːpʰ.t̪ʰˈɛː˧˥.ses.t̪ʰe]   │                                       │
│3P│         │τριφθήσονται [t̪riːpʰ.t̪ʰˈɛː˧˥.son.t̪ai̯]  │                                       │
│2D│         │τριφθήσεσθον [t̪riːpʰ.t̪ʰˈɛː˧˥.ses.t̪ʰon] │                                       │
│3D│         │τριφθήσεσθον [t̪riːpʰ.t̪ʰˈɛː˧˥.ses.t̪ʰon] │                                       │
└──┴─────────┴───────────────────────────────────────┴───────────────────────────────────────┘

(4) installation

Le projet est hébergé sur Github; le code utilise d'autres bibliothèques que j'ai développées : DChars, DictInfos, InfGrid, OrthoPhone et Phoseg. Placez-les à la racine du répertoire où se trouve inflectiones/ et lancez par exemple le script suivant :

from inflectiones.inflectiones import INFLECTIONES
htmldata = INFLECTIONES["grc.λόγος"].inflectAndExportAsHTML( input_parameters = {
                                                            "Nsg"           : "ἀθηναῖος",
                                                            "gender"        : "masculine",
                                                                           },
                                                morphogrid = "fra__grc_logos",
                                                formatstring = "ORTHO [PHONE]",
                                                captiontitle = word,
                                                tableborder = "1",
                                                characters_output = {"grc::ignore makron":True},
                                                      )
print(htmldata)

(5) fonctionnement d'Inflectiones

Il faut comprendre que cette bibliothèque génère des informations orthographiques et phonétiques. C'est la bibliothèque OrthoPhone qui gère le lien entre ces deux types d'informations :

objets DChars + objet Phoseg = OrthoPhone

Grâce à OrthoPhone, il est par exemple possible de supprimer un suffixe à un mot et d'obtenir le résultat orthographique et phonétique attendu. C'est encore OrthoPhone qui gère le délicat problème de l'accentuation ou des signes diacritiques ayant une signification phonétique. Ainsi, l'application de la loi « σωτῆρα » se trouve dans OrthoPhoneGRC.setTheAccentOnThePenult().

En se limitant à la partie d'OrthoPhone liée au grec ancien, voici quelques exemples de fonctions :

o remove_any_initial_vocalic_breathing()
o setTheAccentuation(new_accent='ὀξύτονος', ... 'περισπώμενος', etc. )
o hasAnAnacliticAccent()

Inflectiones remplit des grilles de flexion créées par le module InfGrid. Par exemple, la grille fra__grc_logos prévoit des cellules du type "cas=nominatif;nombre=singulier". Chaque object Infgrid contient un dictionnaire associant le nom d'une cellule à un objet OrthoPhone.

Enfin, un objet Infgrid contient le code HTML du tableau qu'il sert à remplir : voyez un exemple de ces "templates" ici.

(6) et à l'avenir ?

Je cherche des hellénistes susceptibles de relire mes tableaux et des Pythoneux pour étendre Inflectiones à d'autres langues. Si vous êtes intéressés, faites-moi signe !

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Correction orthographique : vérification abusive

2014-01-31T10:14:51+01:00

bonjour,

avec firefox, sur linuxfr (uniquement), presque chaque mot que je tape dans le champs markitup (commentaire, journal etc) est souligné en rouge comme étant mal orthographié (alors que ce n'est pas le cas). Il s'agit sans doute d'un problème de réglage, mais pourtant dans les options > contenu, la langue indiquée est premier est bien le français. Je n'ai pas cela avec chrome. (Le rendu de prévisualisation s'affiche correctement sous firefox)

Savez-vous de quoi ça peut venir ? Serait-il également possible de désactiver la vérification d'orthographe sur linuxfr par rapport aux options du compte ?

Mon navigateur gère a priori correctement celle-ci (sur les autres sites je n'ai pas ce problème), aussi je préfèrerais l'utiliser.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Grammalecte 0.2 est de sortie

2012-09-12T22:34:10+02:00

Grammalecte est un correcteur grammatical pour LibreOffice. Il est similaire à LanguageTool, sauf qu'il est développé en Python.
En outre, sa création est partie du fait que LanguageTool propose trop de faux positifs.

C'est ainsi que la version 0.2 est sortie le trois septembre, et pour les notes de version, c'est par là.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

La langue française, un standard commun ?

2012-08-18T18:02:53+02:00

Sommaire

Introduction

Fréquentant ce site depuis maintenant plusieurs années je n'ai pu m'empêcher de remarquer que, parfois, la communication entre deux contributeurs se heurtait à une différence de niveau de maîtrise de la langue française. Je souhaite donc partager avec vous les solutions dont je pense qu'elles peuvent, sinon régler le problème, améliorer la communication entre nous tous "LinuxFRiens".

Les règles de base

Faire, chacun à son niveau, l'effort de se rapprocher du standard bien établi que l'on nomme Langue française.
Accepter la critique et la correction d'autrui, se remettre en question.
S'astreindre à une relecture consciencieuse de sa propre prose avant de faire le pas de la publication.
Accepter la déviance de certains de nos interlocuteurs, mais la combattre avec mansuétude, fermeté et humanisme.

Les outils

Ces béquilles informatiques peuvent parfois parer nos faiblesses bien humaines.

Dictionnaires

Le Wiktionnaire, un incontournable. C'est un wiki utilisant le même moteur que Wikipdia (Mediawiki). Il est simple, sobre et efficace.

Le CNRTL propose au sein d’un portail unique, un ensemble de ressources linguistiques informatisées et d’outils de traitement de la langue. Notamment des dictionnaires français anciens et modernes. Personnellement je fais mes requêtes sur http://www.cnrtl.fr/definition. Les définitions renvoyées par cet outil peuvent paraître trop complexes (on m'a déjà fait la remarque) par rapport au Wiktionary. Le plus de ce dictionnaire est que pour chaque définition de mot, il indique les extraits de la littérature française (au sens large) dans laquelle ce mot est apparu en premier. Par exemple pour espérance, voici ce que ce dictionnaire nous retournera, j'ai retiré certains passages par soucis de concision :

ESPÉRANCE, subst. fém.
A.− PHILOS., PSYCHOL.
1. Disposition de l'âme qui porte l'homme à considérer dans l'avenir un bien important qu'il désire et qu'il croit pouvoir se réaliser. L'espérance est le désir joint à un jugement (Destutt de Tr., Idéol.,1, 1801, p. 237).Cette belle espérance, qui consiste à croire sans preuve, à adorer ce qu'on ignore et à attendre avec ferveur ce qu'on ne sait pas du tout (Flaub., Tentation,1849, p. 344).Et l'espérance n'espère pas l'espérance, mais d'heureux lendemains (Jankél., Je-ne-sais-quoi,1957, p. 240):
[...]
a) RELIG. CHRÉT. Vertu surnaturelle par laquelle les croyants attendent de Dieu, avec confiance, sa grâce en ce monde et la gloire éternelle dans l'autre[...]
− LITT. (cf. L'Enfer de Dante) :
5. « Je n'aime point, disait M., ces femmes impeccables, au-dessus de toute faiblesse. Il me semble que je vois sur leur porte le vers du Dante sur la porte de l'enfer : Lasciate ogni speranza, voi che intrate. Vous qui entrez ici, laissez toute espérance. » C'est la devise des damnés. Chamfort, Caract. et anecd.,1794, p. 172
− MYTH. [La vérité] doit demeurer ensevelie dans le sein du sage, comme l'espérance au fond de la boîte de Pandore (Chateaubr., Essai Révol.,t. 2, 1797, p. 268).
c) Locutions
− Contre toute espérance. Contre toute attente, alors que personne ne s'y attendait, ne l'espérait (cf. Rob., Lar. Lang. fr.).
− De grande/belle/haute/riche espérance (vieilli). Dont on espère beaucoup; qui donne dès maintenant une haute idée de ce que sera l'avenir. Jeune homme de la plus haute espérance (Delille, Homme des champs,1800, p. xix):
[...]
♦ Avoir des espérances. Être enceinte. Laura m'a confié qu'elle avait des espérances; mais chut!... elle préfère qu'on ne le sache pas encore (Gide, Faux-monn.,1925, p. 1122).
♦ (Avoir des) espérances. (Avoir un) héritage en perspective. Monsieur diplômé, (...) recherche en vue mariage jeune personne (...) avec dot minimum 500 000 et espér. possible (Montherl., J. filles,1936, p. 925):
9. ... je fis remarquer à mon ami que d'excellentes gens emploient communément le mot « espérances » pour désigner la fortune qui doit leur échoir lorsqu'ils auront eu le malheur de devenir orphelins. « Cent mille francs de dot, sans compter les espérances... » Petite phrase coutumière et qui n'a pas l'air méchant, mais qui ouvre un jour, comme on dit, sur les bas-fonds humains. Mauriac, Journal 1,1934, p. 60.
Prononc. et Orth. : [εspeʀ ɑ ̃:s]. D'apr. Grammont Prononc. 1958, p. 41 : [εspε ʀ ɑ ̃:s], p. harmonis. vocalique. Ds Ac. dep. 1694. Étymol. et Hist. 1. Ca 1100 n'aveir esperance de « ne pas s'attendre à » (Roland, éd. J. Bédier, 1411); 2. 1remoitié xiies. esperance « disposition de l'âme qui nous fait considérer ce que nous désirons comme devant se réaliser » (Psautier Oxford, éd. Fr. Michel, LXI, 7, p. 79); 3. mil. xiies. « personne ou chose sur laquelle on fonde son espérance » (Psautier Cambridge, éd. Fr. Michel, LXI, 8, p. 105). Dér. du rad. de espérer*; suff. -ance*. Fréq. abs. littér. : 6 700. Fréq. rel. littér. : xixes. : a) 15 418, b) 9 311; xxes. : a) 7 534, b) 5 815. Bbg. Gossen (C.-T.). Ma plus douce espérance est de perdre l'espoir. Z. rom. Philol. 1955, t. 71, pp. 337-364.

Conjugaison

La conjugaison c'est l'art d'accorder genre et nombre dans le passé, le présent et futur.

Verbiste est un système de conjugaison française. Il s'agit d'une librairie écrite en C++, de deux programmes aussi écrits en C++ qui peuvent être utilisés à la ligne de commande ou à partir d'un autre programme, et d'une applet GNOME. Il est sûrement disponible dans les dépots de votre distribution favorite.

Leconjugueur.com est le conjugueur en ligne du site du journal Le Figaro. Il y a de la publicité mais il est plus complet que Verbiste. Il semble qu'il y ait un client lourd pour GNU/Linux mais il ne doit pas être libre et je ne l'ai jamais testé.

Grammaire

La grammaire c'est le fondement d'une langue ou d'un langage.

Reverso.net semble être une ressource de qualité. Je ne l'ai jamais utilisé mais il doit permettre d'apprendre ou réviser sa grammaire de manière efficace. Par exemple la page sur la proposition relative ressemble à ça :

La proposition relative
La proposition relative est une subordonnée introduite par un pronom relatif (qui, que, quoi, dont, où, lequel, quiconque). a) C'est le bureau dans lequel il a toujours travaillé. b) Vous compléterez le dossier que vous avez reçu. c) Je l'aperçois qui arrive en toute hâte. d) Qui veut voyager loin ménage sa monture. e) Embrassez qui vous voudrez. La proposition relative est généralement complément de l'antécédent du pronom relatif.

    a) La proposition dans lequel il a toujours travaillé est complément du nom antécédent bureau (tout comme le serait du directeur dans une phrase telle que C'est le bureau du directeur).
    b) La proposition que vous avez reçu est complément du nom antécédent dossier.
    c) La proposition qui arrive en tout hâte est complément du pronom antécédent l'.

Quand le pronom relatif n'a pas d'antécédent, la relative est sujet (d) ou complément (e) du verbe de la principale.
Le pronom relatif, contrairement à la conjonction de subordination, a toujours une fonction dans la relative. a) lequel : complément circonstanciel du verbe a travaillé. b) que : complément d'objet direct du verbe avez reçu. c) qui : sujet du verbe arrive. d) qui : sujet du verbe veut voyager. e) qui : complément d'objet direct du verbe voudrez. Le verbe de la relative peut être à l'infinitif. Dans ce cas, le sujet n'est pas exprimé. Il répertorie les organismes à qui adresser une demande de subventions. La proposition relative peut ne pas comporter de verbe, notamment avec dont et voici, voilà. C'est un statut particulier puisque normalement toute proposition se compose d'un sujet et d'un verbe. Aliette a eu neuf enfants dont huit filles. L'homme que voici est notre nouveau directeur.

Conclusion

La clé pour bien écrire c'est de lire beaucoup, ça aide énormément. À force de voir le français écrit correctement on arrive à l'intégrer et à l'écrire mieux. Savoir s'exprimer dans un français correct, un français commun, est le pré-requis à une diffusion efficace de ses idées à l'oral et surtout à l'écrit. J'ai conscience que cet effort peut paraître insurmontable, mais c'est une obligation inévitable.

J'espère que ce journal ne vous aura pas trop chauffé les neurones car en cette période de canicule les miens semblent fondre de par cette chaleur diabolique.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Apache OpenOffice 3.4, LibreOffice 3.5.3 et LanguageTool 1.7

2012-05-15T09:21:55+02:00

Les plus attentifs d'entre vous (notamment ceux qui lisent les journaux de ce site) auront remarqué qu'une nouvelle version de la suite bureautique libre OpenOffice.org a été publiée par la Fondation Apache. Ainsi, Apache OpenOffice 3.4 est donc officiellement disponible : il démarre plus rapidement et… la note de publication est disponible pour les curieux.

Du côté LibreOffice, une mise à jour corrective de la branche courante 3.5 vient d'être annoncée (3.5.3) - la branche 3.4 a également connu une mise à jour. Pour des nouveautés, il faudra attendre LibreOffice 3.6 prévue pour cet été.

Mais quelles sont les différences entre ces deux suites bureautiques libres et multi-plateforme (Linux, MacOS X et Windows) dérivées d'OpenOffice.org ? Bonne question. Michael Meeks (de SUSE) a formulé une réponse assez longue et minutieuse.

Enfin, que vous utilisiez l'une ou l'autre de ces deux suites, vous serez sans doute intéressés par la nouvelle version de LanguageTool le correcteur grammatical multilingue. Ses améliorations concernant la prise en charge du français sont particulièrement appréciables.

lien nᵒ 1 : The Apache OpenOffice Project Announces Apache OpenOffice 3.4
lien nᵒ 2 : AOO 3.4 Release Notes
lien nᵒ 3 : Projet francophone Apache OpenOffice
lien nᵒ 4 : Plan de route LibreOffice
lien nᵒ 5 : LibreOffice
lien nᵒ 6 : A LibreOffice/Apache OpenOffice Comparison
lien nᵒ 7 : LanguageTool : Style and Grammar Checker
lien nᵒ 8 : Journal DLFP : OpenOffice n'est pas mort !

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Rédaction : LanguageTool Style and Grammar Checker

2011-10-30T22:39:22+01:00

Language tool est un outil (en java) de vérification de style et de grammaire qui supporte le français. Il faudrait regarder si c'est pertinent de l'utiliser sur LinuxFr.org et, si oui, comment.

Commentaires : voir le flux Atom ouvrir dans le navigateur

OpenDocument 1.2 normalisé par l’OASIS

2011-10-11T09:39:16+02:00

L’organisme de normalisation OASIS (Organization for the Advancement of Structured Information Standards) vient de ratifier les spécifications du format ouvert de bureautique Open Document (ODF), en version 1.2.

Petit rappel historique :

mai 2005, OpenDocument 1.0 normalisé par l’OASIS ;
mai 2006, OpenDocument 1.0 normalisé par l’ISO (ISO/IEC 26300:2006) ;
février 2007, OpenDocument 1.1 normalisé par l’OASIS ;
5 octobre 2011, OpenDocument 1.2 normalisé par l’OASIS ;
actuellement OpenDocument 1.1 est en cours d’évaluation par l’ISO (qui ensuite devrait s’attaquer dans la foulée à la version 1.2).

ODF 1.2 est déjà disponible (en tout ou partie) dans les logiciels bureautiques libres Abiword, Calligra, Gnumeric, LibreOffice, Apache OpenOffice.org.

Parmi les nouveautés, les signatures numériques, du Web sémantique et le langage pour tableur OpenFormula.

Au passage, rappelons l’existence de deux correcteurs grammaticaux libres pour la langue française pour LibreOffice et OpenOffice.org, sous forme d’extensions (ça serait aussi pratique comme extension dans un navigateur d’ailleurs) :

Grammalecte (en Python) ;
LanguageTool (en Java).

lien nᵒ 1 : PC INpact : « L'OASIS standardise la version 1.2 du format bureautique ODF »
lien nᵒ 2 : OASIS : "Members Approve OpenDocument Format (ODF) Version 1.2 as OASIS Standard"
lien nᵒ 3 : Wikipédia : Open Document Format
lien nᵒ 4 : LinuxFr.org (mars) : « La spécification d’ODF 1.2 est terminée »
lien nᵒ 5 : Grammalecte
lien nᵒ 6 : LanguageTool

Quelques fonctionnalités intéressantes :

intégration d’OpenFormula. Les précédentes versions de la norme ne décrivaient pas le stockage des formules des feuilles de calcul dans les fichiers, c’est désormais chose faite ;
système de métadonnées sémantiques basée sur RDF/XML ;
signature numérique des documents. La technologie, précédemment utilisée dans OpenOffice.org, XML-Dsig, est utilisée.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur