Merci pour cet article intéressant. Et merci pour Grammalecte, qui comble un manque important dans l'univers du Libre francophone.
J'avais travaillé au début des années 2000 des outils de traitement du langage naturel, en Python, basés sur le livre "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition" de Dan Jurafsky et James H. Martin. Je ne trouve pas le code sur http://www.logilab.org/ (société pour laquelle je travaillais à l'époque), mais peut-être qu'en leur demandant gentiment, les responsables actuels accepteraient d'ouvrir le code pour inclusion dans grammalecte (Logilab est une société attachée à l'Open Source et je ne pense pas qu'ils valorisent ces entrepôts de code actuellement).
On y trouvait en particulier un tokeniseur (simpliste) et un parser de Earley (http://fr.wikipedia.org/wiki/Analyse_Earley), et un embryon de grammaire française, qui pourraient peut-être utile pour la tokenisation dans Grammalecte.
# outils python pour le tagging et l'analyse grammaticale
Posté par agurney . En réponse à la dépêche Grammalecte, correcteur grammatical. Évalué à 10.
Bonjour Olivier,
Merci pour cet article intéressant. Et merci pour Grammalecte, qui comble un manque important dans l'univers du Libre francophone.
J'avais travaillé au début des années 2000 des outils de traitement du langage naturel, en Python, basés sur le livre "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition" de Dan Jurafsky et James H. Martin. Je ne trouve pas le code sur http://www.logilab.org/ (société pour laquelle je travaillais à l'époque), mais peut-être qu'en leur demandant gentiment, les responsables actuels accepteraient d'ouvrir le code pour inclusion dans grammalecte (Logilab est une société attachée à l'Open Source et je ne pense pas qu'ils valorisent ces entrepôts de code actuellement).
On y trouvait en particulier un tokeniseur (simpliste) et un parser de Earley (http://fr.wikipedia.org/wiki/Analyse_Earley), et un embryon de grammaire française, qui pourraient peut-être utile pour la tokenisation dans Grammalecte.