Apertium offre de nouvelles paires de langues et participe au GSOC

Posté par  (site web personnel) . Modéré par Mouns.
13
26
avr.
2009
Bureautique
Apertium est un programme de traduction automatique libre. Disponible pour 18 paires de langues repris sur la page d'accueil du wiki. Aujourd'hui deux paires comprenant le français existent en version stable : français-catalan et français-espagnol. Depuis la publication de la dernière nouvelle sur Apertium en mars 2008, beaucoup de choses ont changé.

Tout d'abord, Apertium gagne en popularité. Par exemples, l'université de Reykjavík participe au développement d'Apertium et le très diffusé quotidien espagnol El País consacre un long article au programme de traduction libre.

Ensuite, Apertium a été sélectionné pour le Google Summer of Code (GSOC). Neuf étudiants dont deux de Grenoble participent à l'événement.

Finalement, les développeurs ont publié en version stable de nombreuses nouvelles paires dont l'espagnol-occitan, catalan-occitan, espagnol-basque, anglais-espéranto, anglais-galicien, anglais-gallois, portugais-galicien, portugais-catalan.

Notons que des développeurs pour de nouvelles paires comme par exemple le français-espéranto sont les bienvenus. Vous pourrez ainsi vous baser sur entre autres les paire espagnol-français et d'autre part espagnol-espéranto, catalan-espéranto, anglais-espéranto. De plus la version français-espagnol est passée en version 0.9. Apertium se base sur un moteur écrit en C++, et cinq fichiers XML par paires de langues.Si vous désirez créer une nouvelle paire de langue, vous ne devez pas connaître le C++, mais simplement pouvoir utiliser un éditeur de texte pour manipuler les fichier XML.

Un fichier monolingue pour chaque langue : ceux-ci contiennent des modèles qui indiquent comment les mots varient (la conjugaison pour les verbes, la formation du pluriel pour les noms, etc.) et une liste de mots avec le modèle associé. Un fichier bilingue qui contient une liste de mot dans une langue et sa traduction dans l'autre. Deux fichiers de transfert qui indiquent les règles pour passer d'une langue à l'autre et un autre fichier en inversant le rôle de langue cible et source.

Les personnes intéressées par le développement sont invitées à nous rendre visite sur le canal IRC #apertium hébergé sur irc.freenode.org. D'expérience, je peux vous dire que l'accueil y est très amical et les développeurs sont très patients dans leurs explications aux nouveaux.

Aller plus loin

  • # test

    Posté par  (site web personnel) . Évalué à 8.

    Ceci est un commentaire anglais automatiquement traduit par Apertium (par espagnol parce que je n'ai pas trouvé traduction directe).

    Ce traducteur est assez capable de parler une langue compréhensible.
    • [^] # Re: test

      Posté par  . Évalué à 2.

      Ça aurait été sympa de nous donner la version originelle anglaise (et il manque "El Pais" après "quotidient espagnol" dans le second paragraphe).
      • [^] # Re: test

        Posté par  . Évalué à 5.

        This would have been nice to give us the version originelle English (and is missing "The Graze" afterwards "quotidient Spaniard" in the second paragraph).

        ;)

        Ce qui serait pas mal, c'est d'avoir une version esperanto/français, ainsi cela ouvrira une traduction peut-être plus fidèle du français vers l'allemand ou l'anglais et vice versa, en passant par l'esperanto (il me semble qu'un logiciel de traduction utilise déjà cela)

        Only wimps use tape backup: real men just upload their important stuff on megaupload, and let the rest of the world ~~mirror~~ link to it

  • # Langues indo-européennes

    Posté par  (site web personnel) . Évalué à 3.

    J'ai peur, en voyant vite fait le projet et sa spec, que le logiciel soit fortement restreint aux langues indo-européennes ou tout du moins aux langues où aucune nuance de politesse n'a d'influence morphologique, et où la structure des phrases est linéaire et avec sujet.
    Y a bien le basque comme intrus, mais je crois que ce logiciel, avec son système actuel, sera à tout jamais incapable de faire du japonais, du coréen ou du thai (sans parler de bien d'autres langues d'Asie).

    Exemple en japonais,
    − okâsan ni mizu wo irete sasi agemasita. (J'ai versé de l'eau à ma mère)
    − inu ni mizu wo irete yatta (j'ai versé de l'eau à mon chien)

    Ne changent que le receveur (mère/chien) et ça suffit pour changer le groupe verbal. Et bien que nul part je n'ai écrit "je", le sujet est implicite.

    Pis encore!

    − okâsan ni mizu wo irete moratta (ma mère m'a versé de l'eau).
    − okâsan ni mizu wo irete moratta (on a versé de l'eau pour ma mère).

    Et voila une belle ambiguité impossible à résoudre sans contexte. Il gère-tu le contexte, le logiciel ci-dessus ?

    Au final, je ne dénigre pas le logiciel, loin de là, je le trouve même plutôt sympa. Je fais juste remarquer qu'il est adapté (du moins, me semble-t-il) aux langues "connues" qui sont en fait de très, très mauvais représentants des langues du monde (y compris à l'oral, où nous n'avons pas de tons)
    • [^] # Re: Langues indo-européennes

      Posté par  (site web personnel) . Évalué à 2.

      Il faut voir aussi que supporter toutes les langues du monde est probablement beaucoup plus compliqué. A choisir il vaut sans doute mieux avoir un logiciel qui supporte plus ou moins bien les langues occidentales, qu'un logiciel hyper-extensible qui ne marche pas du tout.
    • [^] # Re: Langues indo-européennes

      Posté par  (site web personnel) . Évalué à 4.

      Francis Tyers, l'un des principaux développeurs d'Apertium et doctorant en traduction automatique, m'a fournit patiemment une longue réponse.

      1)De nombreuses langues asiatiques, comme par exemple les langues indo-aryennes, pourraient bien fonctionner avec Apertium. De nombreuses langues dans ce groupe sont en effet proches linguistiquement.

      2) Nous n'avons pas encore traité les registres de politesse, en grande partie parce que nous n'avons personne qui s'y est intéressé. Il y a un système de traduction automatique open-source pour l'anglais-japonais que vous pourriez peut-être consulter. Ce logiciel s'appelle 'ja2en' et est basé sur la technologie LOGON. http://cl.aist-nara.ac.jp/~eric-n/papers/open-source-mt-TMI-(...)

      3)Nous tenons compte du contexte en réalisant des unités formées de plusieurs mots. Nous aimerions bien travailler sur un module offrant une méthode de sélection lexicale plus puissante. Mais ... jusqu'à présent, nous n'avions pas encore eu vraiment besoin de cela, car nous travaillons généralement sur des langues proches sur le plan linguistique.

      4)Si vous jetez un oeil à l'incubateur, https://apertium.svn.sourceforge.net/svnroot/apertium/trunk/(...) vous trouverez des langues moins "connues" comme l'ossetien, le dhivedi ou le kurde (néanmoins indo-européen).

      5)Apertium accepte toujours bien volontiers de nouveaux développeurs. Donc si vous avez une quelquonque idée sur la manière d'améliorer Apertium ou si vous avez une quelconque suggestion, nous serions ravis d'en prendre connaissance
      • [^] # Re: Langues indo-européennes

        Posté par  . Évalué à 1.

        Je me permets de signaler que selon Claude Piron (traducteur à l'ONU entre autres) l'espéranto est, au niveau syntaxique, plus proche du chinois (éléments invariables associés entre eux) que de n'importe quelle langue européenne.
        Voici l'un de ses textes:
        http://claudepiron.free.fr/articlesenfrancais/langueoccident(...)

        Donc l'espoir d'une version espéranto - chinois et vice-versa n'est pas vain apparemment.
        Pour le japonais, c'est effectivement une autre paire de manches, bien que la grammaire soit assez régulière aussi.

        Pour ceux que l'espéranto titille et qui manquent de motivation pour commencer (ou simplement pour chercher de l'info):

        http://claudepiron.free.fr/index.htm
        http://claude-piron.ch/francaisindex.htm

        et l'excellentissime FAQ de la Société Québécoise d'Espéranto:
        http://www.esperanto.qc.ca/fr/questions
        • [^] # Re: Langues indo-européennes

          Posté par  (site web personnel) . Évalué à 1.

          Je ne connais rien à l'Esperanto, mais ce que je sais du chinois, c'est que sa grammaire est loin d'être une difficulté.

          La grammaire « régulière » du japonais (et celle du coréen, encore pire selon moi) est une horreur. Autant, passer d'une de ces deux langues à l'autre est "aisé", autant passer par −ou vers− une langue non agglutinante, non contextuelle et dépourvue de variations morphologiques dues à la politesse est une ambition computationnelle que j'ai laissée tomber.

          J'ai trouvé bien plus simple d'apprendre les langues que d'apprendre à les traduire :)

          Quand à ma possible participation au projet, pas dans l'immédiat. J'ai justement renoncé il y a un bail à un troisième cycle en linguistique informatique, et c'est pas encore revenu à l'ordre du jour. Mais je garde le projet en tête pour plus tard.
  • # Paires de langues

    Posté par  . Évalué à 2.

    Il y a quelques années, j'avais entendu parlé d'un projet qui travaillait sur une langue intermédiaire propre au logiciel de traduction afin de ne pas se retrouver avec un nombre trop élevé de paires de langues - on défini pour chaque langue une paire langue.réelle ‹-› langue.logiciel ce qui fait que pour n langues, on a n paires au lieu de n(n-1)/2.
    N'avez vous pas peur du nombre de paires qu'il faudrait développer, de l'inégalité des traductions qui pourraient en découler ? De plus certaines langues qui n'auraient que peu de paires, pourraient nécessiter de passer par plusieurs langues. Est-il prévu une évolution du logiciel qui pourrait utiliser une langue intermédiaire ? Est-ce que ça pourrait être l'espéranto (je n'y connaît rien, mais il m'avait semblé avoir lu que c'était une langue bien structurée) ?

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.