Apertium français-espagnol 0.8.0 vient de sortir

Posté par  (site web personnel) . Modéré par Nÿco.
0
7
mar.
2008
Bureautique
Le monde du logiciel libre ne compte que très peu de solutions de traduction automatique :
  • OpenLogos, projet peu actif ;
  • Moses, qui réalise des traductions automatiques basées sur des statistiques ;
  • Apertium, projet en GPL reposant sur une communauté active.

Apertium est une plateforme de traduction automatique libre et d'outils linguistiques conçue initialement pour des langues proches, comme par exemple la paire catalan - espagnol. La version 0.8.0 de la paire français-espagnol est sortie le 21 février 2008. Cette paire a bénéficié du soutien de l'entreprise Eleka Ingeniaritza Linguistikoa et a été développée par Prompsit. Apertium est soutenu financièrement par le ministère espagnol de l'industrie,du tourisme et du commerce, du gouvernement de la communauté autonome de Catalagone, et l'université d'Alicante, le ministère des affaires étrangères de Roumanie et par Prompsit et Eleka, deux entreprises. Plusieurs universités contribuent activement au code et outils linguistiques :
l'université d'Alicante (Valence), de Vigo (Galice), de Pompeu Fabra (Barcelone en Catalogne).

Apertium recherche des développeurs tant pour le moteur écrit en C++, que des non informaticiens pour les données linguistiques stockés dans de simples fichiers XML, ou des personnes pour réaliser des interfaces.

Vous pouvez télécharger une archive, la dernière version via svn, ou tester via l'interface web.

Aller plus loin

  • # pratique

    Posté par  (site web personnel) . Évalué à 4.

    La traduction français espagnol me semble de bonne facture
    http://xixona.dlsi.ua.es/apertium-unstable/navegador.php?mar(...)
    Dommage que linuxes.org soit parqué cela aurait été l'occasion de diffuser notre site francophone préféré en une autre langue que le 1337 :-)

    Pour ceux qui se disent, tiens c'est dommage pour un outil de traduction qu'il ne soit pas en français par défaut, il est bien disponible : http://xixona.dlsi.ua.es/apertium-unstable/fr
    (tenir compte de la langue du navigateur et d'un cookie de la dernière langue sélectionnée par l'utilisateur pourrait être une amélioration sympathique ; par ailleurs toutes les paires n'apparaissent pas, bizarre :/ et il y a une petite typo dans le titre).

    Je n'ai pas encore essayé le client, mais la traduction en ligne est d'ores et déjà dans mes signets http://wiki.eagle-usb.org/wakka.php?wiki=SemantiqueEtLangue (aux côtés de sensmotdire et shtooka, projets libres pour la conjugaison et la prononciation des verbes irréguliers).

    Il est possible de suivre l'avancement avec le nombre de lemmes[1] par langue http://xixona.dlsi.ua.es/wiki/index.php/List_of_language_pai(...)
    Il y a même l'esperanto : une idée pourrait être de systématiquement proposer l'esperanto comme langue cible, ce qui permettrait de toujours disposer d'une traduction lisible pour les sites web (bon faut se mettre à l'esperanto aussi...).

    [1] http://fr.wikipedia.org/wiki/Lemme_(linguistique)
    • [^] # Re: pratique

      Posté par  (site web personnel) . Évalué à 3.

      Merci pour le commentaire.

      J'ai demandé que l'on corrige l'erreur d'orthographe qui vient dêtre faite. Apertium a la chance de compter parmi ces contributeurs un développeur très actif et dévoué.

      En ce qui concerne l'auto-selection de la langue d'après les préférences du navigateur, elle devrait être ajoutée dans l'interface web qui devrait être ré-ecrite.

      Au fait, vous pouvez contacter les développeurs sur le canal #apertium du serveur Freenode accessible via l'interface web http://xixona.dlsi.ua.es/cgi-bin/cgiirc/irc.cgi
    • [^] # Re: pratique

      Posté par  (site web personnel) . Évalué à 3.

      Français-espagnol et espagnol-français viennent d'être ajoutés à http://xixona.dlsi.ua.es/apertium-unstable/fr/ et à http://xixona.dlsi.ua.es/apertium/fr/
      • [^] # Re: pratique

        Posté par  . Évalué à 1.

        Fort intéressant !

        Dans quelle mesure (et avec quelle facilité ) on peut rajouter Catalan - Français ? (Oui, je suis à Barcelone )
        • [^] # Re: pratique

          Posté par  . Évalué à 2.

          Autant pour moi, il y est déjà dans la liste !

          Merci beaucoup pour me faire découvrir cet outil!
    • [^] # Re: pratique

      Posté par  . Évalué à 3.

      > Il est possible de suivre l'avancement avec le nombre de lemmes[1] par langue
      > http://xixona.dlsi.ua.es/wiki/index.php/List_of_language_pai(...)
      > Il y a même l'esperanto : une idée pourrait être de systématiquement proposer
      > l'esperanto comme langue cible, ce qui permettrait de toujours disposer d'une
      > traduction lisible pour les sites web (bon faut se mettre à l'espéranto aussi...).

      Oui, dommage qu'il n'y ait pas le couple fr<->eo et en général peu de couples avec EO pour l'instant, d'autant qu'il existe déjà des "traducteurs automatiques" chez http://lingvo.org/traduku/ , des dictionnaires (http://fr.Lernu.net/ , http://www.retavortaro.de/ , ... ) la base de lemmes est disponible.
      • [^] # Re: pratique

        Posté par  (site web personnel) . Évalué à 3.

        Je vais d'abord expliquer brièvement l'organisation des données linguistiques.

        Elles sont réparties en cinq fichiers XML

        - un dictionnaire monolingue pour la langue source de la traduction. Ce dictionnaire comporte la liste des mots et le paradigme correspondant. Je m'explique, par exemple pour « chanter », les contributeurs ne vont pas indiquer toute la conjugaison, mais simplement dire que « chanter » se conjugue comme « aimer ». « aimer » est donc le paradigme de « chanter » et bien sûr aussi de « rouler », « donner », « danser », etc.
        Les paradigmes contiennent des informations sur la morphologie des mots c'est-à-dire quelles sont les terminaisons des verbes, des noms, des adjectifs, etc selon qu'ils soient au singulier, pluriel, à la première personne, etc
        - idem pour la langue cible de la traduction

        - un dictionnaire bilingue qui associe un mot de la langue source et sa traduction dans la langue cible.

        - des règles de transfert pour passer de la langue source à la langue cible. Ce sont en quelques sortes, les règles de grammaire.

        - idem mais pour traduire en inversant la langue source et la langue cible.


        Les dictionnaires monolingues sont déjà disponibles pour l'espéranto, l'anglais, le français et peuvent donc être réutilisés.

        Pour les dictionnaires bilingues on peut se baser sur des outils automatiques disponibles dans Apertium pour les générer. Un exemple sera plus clair. Les pairs espagnol-espéranto espagnol-français existent.

        Nous avons donc quelque part dans les dictionnaires bilingues d'Apertium (de manière schématique) « perro --> hundo » et « perro --> chien ». L'outil « crossdic » va générer automatiquement « hundo--> chien ».

        Conclusion, se sont les règles de transferts qui sont les plus ardues. Mais des développeurs sont près à vous aider par email (https://lists.sourceforge.net/lists/listinfo/apertium-stuff) ou par irc. (http://xixona.dlsi.ua.es/cgi-bin/cgiirc/irc.cgi)
        Les contributeurs pour la paire espéranto-français sont les bienvenues.
  • # Synergies avec d'autres projets libres?

    Posté par  . Évalué à 3.

    Dites mois si je me trompe, mais en regardant cette page [1], ainsi que son équivalent anglais, il me semble que contribuer à une paire de langues existante revient a refaire une partie du travail réalisé dans un dictionnaire orthographique (notamment celui qui consiste a éliminer les doublons) en l'enrichissant des correspondances qui existent entre les termes des deux langues.

    Si vous ne voyez pas de quoi je parle avec le dictionnaire d'orthographe, vous pouvez regarder cette discussion très intéressante qui explique comment c'est fait [2].
    Vous pouvez aussi aller jeter un coup d'oeil sur le projet Dicollecte[1] qui vise à améliorer les dictionnaires orthographiques français pour OpenOffice.org et pour Firefox, Thunderbird et Seamonkey.

    Donc je me demandais s'il ne serait pas possible pour ces projets de réutiliser des données?

    Par ailleurs, je pense qu'Apertium doit disposer d'une compréhension de la grammaire de chaque langue, il semble naturel de penser qu'il soit possible de travailler de concert avec Language Tool pour construire des données ensemble et essayer de s'améliorer mutuellement?

    [1] http://xixona.dlsi.ua.es/wiki/index.php/Comment_contribuer_%(...)
    [2] https://linuxfr.org//comments/903125.html#903125
    [3] http://dico.savant.free.fr
    • [^] # Re: Synergies avec d'autres projets libres?

      Posté par  (site web personnel) . Évalué à 1.

      Je vous invite à regarder ma réponse http://linuxfr.org/2008/03/07/23811.html#912480 pour une explication sur l'organisation des données linguistiques d'Apertium. Je vais apporter quelques compléments. Le problème des correcteurs orthographiques, c'est que la plupart ne contiennent pas d'information grammaticales, pas de paradigmes. C'est-à-dire que la conjugaison des verbes, les pluriels des noms, le féminin des adjectifs n'y sont pas présentes. Pour ceux qui contiennent des informations, il faudrait trouver des bénévoles pour convertir le format des paradigmes de correcteurs dans le format propre à Apertium.
      Ajouter des informations grammaticales et des règles de transfert demandent du temps.
      Pour ce qui est de la réutilisation des données d'Apertium qui sont en GPL, des idées sont déjà avancées par les développeurs d'Apertium notamment pour le « Google Summer Code ». http://xixona.dlsi.ua.es/wiki/index.php/Ideas_for_Google_Sum(...) La réutilsation de « language tool » se trouve sur la page concernant le Google Summer Code dans la section « Generating grammar checkers ».

      En résumé, Apertium recherche des personnes désireuses d'ajouter les fameux paradigmes et les règles de transfert.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.