Tatoeba.org, base de données de phrases d'exemple

Posté par  (site web personnel) . Modéré par Florent Zara.
27
17
juil.
2010
Internet
Toute personne apprenant une langue s'est retrouvée un jour face à la question « Mais comment diable utilise-t-on ce mot/cette expression ? ». Le projet Tatoeba a été fondé pour répondre au besoin de pouvoir rapidement trouver des phrases illustrant un mot ou une expression. Le tout s'articule autour d'un site web [http://tatoeba.org], où chacun peut venir piocher des phrases dans les langues qui l'intéressent et, une fois inscrit, ajouter ses propres phrases, mais aussi traduire, corriger celles déjà existantes.

C'est d'ailleurs dans cet aspect collaboratif que réside tout l'intérêt de Tatoeba : l'ensemble des phrases a été créé/traduit par des êtres humains. Ainsi, on peut non seulement trouver des phrases « naturelles », mais aussi poser des questions sur les phrases déjà présentes, afin de savoir si telle ou telle variation est correcte, dans quel cas on utiliserait cette phrase plutôt qu'une autre, etc.

Nous avons pour l'instant plus de 400 000 phrases réparties sur 53 langues et environ 4000 audios qui proviennent d'une collaboration avec le projet Shtooka. Pour ce qui est des licences, l'ensemble des phrases et audios sont sous CC-BY2.0/FR et le site en lui même est sous AGPL v3. Petit historique

Au départ, le projet est l'idée d'une ancienne étudiante de l'UTC qui ne trouvait pas de sites de phrases d'exemple alignées français/japonais. La première version du site a vu le jour en 2006. Plus tard ont été importées les phrases du corpus Tanaka (réalisé par le professeur japonais éponyme en demandant tous les ans à ses élèves 200 phrases japonaises traduites en anglais). Cela a permis d'augmenter la taille de la base de donnée (ce corpus contient environ 150 000 phrases en japonais et anglais) au détriment de la qualité globale des phrases. En effet, ce corpus ayant été compilé à partir de travaux d'étudiants japonais, un nombre conséquent de phrases anglaises ne sont pas naturelles ou contiennent des fautes de grammaire. Les personnes du sites wwwjdict collaborent avec nous pour corriger le plus possible ces phrases.

Un peu plus tard ont été importées les phrases d'un projet avorté de traduction en français de ce corpus japonais/anglais : 20 000 traductions françaises ont été ajoutées de cette manière. Ici aussi, cet autre projet n'ayant pas mis en place de relecture, beaucoup des phrases françaises provenant de cet apport sont des traductions approximatives.

Fonctionnement du site

Ces deux principales sources de phrases n'étant pas fiables, il a été nécessaire de mettre en place un système permettant rapidement de voir si une phrase est "fiable" ou non. Lorsqu'une personne ajoute une phrase, elle est indiquée comme "possédant" la phrase : seule elle et l'équipe de modération peuvent en changer le contenu, cela afin d'éviter les vandales et surtout pour créer un dialogue. Cela permet ainsi à la personne ayant ajouté une phrase fausse de remarquer son erreur. Cela permet aussi d'éviter les "fausses" corrections (corriger "après qu'il est" par "après qu'il soit").

Ainsi, une phrase n'appartenant à personne (typiquement les phrases venant des deux autres projets) est à prendre avec des pincettes et, si elle est fausse, il est possible (et recommandé) d'adopter la phrase pour ainsi pouvoir l'éditer. De cette manière, petit à petit, le nombre de phrases "orphelines" diminue. Plus tard, si une personne dépose un commentaire sur une phrase, le propriétaire d'une phrase verra ce commentaire et pourra y répondre.

Pour ce qui est de l'ajout de nouvelles langues, nous n'avons aucun parti pris. Nous attendons pour ajouter une langue uniquement une personne prête à contribuer dans ladite langue (pour éviter ainsi d'avoir des langues sans phrases, ce qui polluerait inutilement l'interface).

La machinerie

Le site est hébergé par la FSF France, que nous remercions grandement. Côté technique, cela reste classique : LAMP (php avec le framework cakephp). Pour ceux qui voudraient regarder le code source, il est disponible ici.

L'équipe

Tatoeba est resté pendant assez longtemps le seul fait de Trang (l'étudiante de l'UTC) avec le soutien ponctuel d'autres étudiants de l'UTC. Il y a un an, je l'ai rejointe sur le développement du site web ; quelques autres étudiants ont aussi apporté quelques améliorations.

L'avenir

Nous prévoyons sur le moyen terme une refonte du site pour passer sur Django (pour des raisons d'affinité, php étant utilisé à l'heure actuelle pour des raisons historiques), mais aussi sur le plan humain, à nous ouvrir plus sur l'extérieur, à nouer des liens avec d'autres projets, à promouvoir le projet.

À bientôt ! ([http://tatoeba.org/fre/sentences/show/337862])

Aller plus loin

  • # 例えば

    Posté par  . Évalué à 2.

    signifiant évidemment (ou pas :)) ... "par exemple" !
  • # Bravo !

    Posté par  . Évalué à 10.

    Intelligence et bonnes idées ! L'écosystème libre prouve son efficacité chaque jour un peu plus !
    • [^] # Re: Bravo !

      Posté par  (site web personnel) . Évalué à 1.

      Oui, enfin ça fait des années qu'ALC et Eijiro existent…
      http://eow.alc.co.jp/ゴジラ/UTF-8/

      Bon, ça ne fait qu'anglais<=>japonais, mais c'est pas nouveau, et c'est utilisé quotidiennement par bien des japonais…

      Enfin, je vais jeter un œil à ce tatoeba…
  • # Amusant à petite dose

    Posté par  . Évalué à 3.

    J'ai joué à traduire quelques phrases, c'est assez amusant, voire un peu grisant. On traduit quelques phrases, puis on redemande des phrases au hasard, on traduit, etc. Au vu des "dernières contributions", on dirait que je ne suis pas le seul.

    Note technique : Je n'ai pas trouvé l'option de recherche « afficher les phrases en <telle langue> qui ne sont *pas* traduites en <telle langue> », bien qu'elle soit mentionnée comme présente dans le bugtracker. Elle me serait assez utile pour chercher des phrases à traduire.
    • [^] # Re: Amusant à petite dose

      Posté par  (site web personnel) . Évalué à 3.

      oui, c'est vrai, plusieurs fonctionnalités, comme les tags, l'affinage de la recherche, ont été ajoutées il y a peu, et l'interface a encore besoin d'être adaptée pour les trouver facilement.

      Pour l'affinage de la recherche, pour l'instant on peut y accéder en cliquant sur un drapeau dans le petit carré "nombre de phrase par langue", cela amène à la page listant toutes les phrases dans la langue sélectionnée, avec possibilité de filtrage (voir uniquement les phrases ayant un audio etc.)
      par exemple http://tatoeba.org/fre/sentences/show_all_in/fra/und/eng/ind(...)
      toutes les phrases françaises n'ayant pas de traductions directes en français (avec toutes les traductions d'affichés)

      Sinon j'ai oublié de l'ajouter dans la dépêche, mais le blog du projet (en anglais) où sont mis nos "changelogs" http://blog.tatoeba.org/

      En tout cas merci pour les retours, et un plus grand merci encore à ceux qui ont ajouté des phrases.

      PS: encore oublié de le préciser mais on a un canal #tatoeba sur freenode
  • # Comment son gérées les erreurs ?

    Posté par  (site web personnel) . Évalué à 4.

    Imaginons que je tombe sur une phrase, cette phrase a été mal traduite. Et d'autres personne ont traduit correctement cette mauvaise traduction vers d'autres langues (pas simple à expliquer). La problématique est donc la suivante : doit-on corriger la mauvaise traduction de base, quitte à en invalider d'autres ?

    Concernant le site, super principe : les phrases d'exemple sont en effet souvent difficiles à trouver.
    • [^] # Re: Comment son gérées les erreurs ?

      Posté par  (site web personnel) . Évalué à 7.

      Très bonne remarque, je vois ce que tu veux dire ^^

      deux cas de figure :

      la phrase a été mal traduite et est fausse en elle même, (faute de français etc.) dans ce cas il suffit juste de "bien" retraduire la phrase

      la phrase est correct en elle même mais n'est pas une traduction, et visiblement d'autre personne ont traduit cette phrase
      du coup on se retrouve avec par exemple

      Phrase "pivot" I eat an apple
      Traduction directe : 我在吃苹果 (je mange une pomme, en chinois, donc bonne traduction)
      Traduction directe: Le ciel est bleu
      Traduction indirecte : Sky is blue


      Dès lors nous avons un mécanisme qui nous permet de "délier" des phrases
      et dans ce cas, il suffit juste de mettre un commentaire sur la phrase française "les traductions ne collent pas/translation doesn't match), et un modérateur, ou un utilisateur ayant les droits, déliera les "le ciel est bleu" de "I eat an apple"
      et le probleme sera réglé, sans avoir besoin de modifier les phrases, qui en elles mêmes étaient toutes bonnes

      voila, j'espère que cela répond à ta question
  • # Commentaire supprimé

    Posté par  . Évalué à -2.

    Ce commentaire a été supprimé par l’équipe de modération.

  • # html5

    Posté par  (site web personnel) . Évalué à 4.

    Bonsoir,

    j'espère que vous prendrez soin d'ajouter ce qu'il faut pour que l'on puisse directement écouter le son, sans devoir ajouter un plugin au navigateur.

    Peut être s'inspirer de ce qui se fait chez Dogmazic.org

    A bientôt
    Grégoire

    Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html

  • # Orthographe

    Posté par  . Évalué à 2.

    Bonjour,

    Voila encore une super idée de projet, et je dois dire que je suis encore plus content de la co fertilisation des projets dans le domaine des langues:
    - Wiktionnaire utilise Shtooka
    - Tatoeba utilise Shtooka
    - Les utilisateur de Wiktionnaire utilisent Tatoeba pour donner des exemples d'utilisation des mots? :)


    Il y a juste un point qui m'a agacé dans l'interface de traduction. Le champ HTML dans lequel on tape les traductions est un text input comme ceci:
    <input type="text" value="" class="addTranslationsTextInput" id="_158501_text" name="data[translation]">
    Or, il semble que le correcteur orthographique de Firefox ne propose pas de corrections pour ce type de champ. Wikipedia, quand a lui utilise un textarea. J'ai alors droit a des propositions de corrections orthographiques.

    Pensez-vous pouvoir améliorer ce point? Ou bien prévoyez-vous (sait-on jamais) d'intégrer un correcteur orthographique dans l'interface du site web (comme linuxfr.org)? Ça va être un peu plus compliqué pour gérer toutes les langues disponibles.
    • [^] # Re: Orthographe

      Posté par  . Évalué à 1.

      Pour le textarea, oui on va le faire :) Quelqu'un d'autre m'avait mentionné ça pour la correction orthographique mais ça m'était sorti de la tête.

      Pour ce qui du est Wiktionnaire, on y pense depuis un bout de temps. Il faut juste qu'on trouve le temps d'aller parler à la communauté et voir comment on peut s'organiser.
      • [^] # Re: Orthographe

        Posté par  . Évalué à 2.

        Dans l'autre sens, je me suis dit qu'il devait aussi être possible de regarder les mots existants dans le Wiktionnaire (quelle langue), et de repérer lesquels n'apparaissaient dans aucune phrase disponible sur Tatoeaba.org?

        Oui, oui je sais, plus facile à dire qu'à faire, mais puisque je ne ferais pas, je peux au moins le dire? Si quelqu'un est assez motivé, il le fera, sinon tant pis, j'aurais parlé pour rien (mais ça ne m'aura pas coûté grand chose)
        • [^] # Re: Orthographe

          Posté par  (site web personnel) . Évalué à 1.

          Non c'est une bonne idée, après je ne pense pas que ce sera très difficile à implémenter dans le liste (itérer sur la liste avec le moteur de recherche et voir ceux qui retourne 0 résultat, et après faire une page, pour ceux en mal d'inspiration pour ajouter de nouvelles phrases, "mots n'étant présent dans aucune phrase" )
          Par contre au vu de la longue liste de chose qu'il nous reste à faire, je ne sais pas quand cela sera fait, mais en tout cas ce sera fait un jour, merci pour l'idée :)
    • [^] # Re: Orthographe

      Posté par  (site web personnel) . Évalué à 2.

      En fait il est possible d'activer la correction orthographique dans les inputs en faisant (dans firefox)
      about:config

      chercher la valeur

      layout.spellcheckDefault , et passer la valeur à deux, et tout de suite après, la correction orthographique sera disponible dans les champs input text

      mais je plussoie que nous devrions les remplacer par un textarea, vu que tout le monde ne connait pas cette petite astuce (d'ailleurs @trang, peut être mettre ce petit tips sur notre blog)
      • [^] # Re: Orthographe

        Posté par  . Évalué à 2.

        Honnêtement, j'étais a peu près sur que quelque chose existait pour corriger ce problème, mais flemme, tout ça. :)

        Je me demandais aussi comment se comportent les autres navigateurs?
  • # Export vers Anki

    Posté par  . Évalué à 1.

    J'utilise beaucoup Anki [http://ichi2.net/anki/] pour améliorer mon anglais cela occupe bien dans les transports en commun (existe sur android)

    Est il possible de faire un export de toutes les phrases d'une certaine langue ayant une traduction dans une autre langue (au format CSV par exemple ... juste parce que anki sais le gérer :-) ? Cela permettrait de générer facilement des decks.
    • [^] # Re: Export vers Anki

      Posté par  (site web personnel) . Évalué à 2.

      pour l'instant la fonctionnalité tel que tu l'as décrite n'existe pas

      mais
      l'export vers anki est possible à partir des listes,
      exemple
      http://tatoeba.org/fre/sentences_lists/show/1/deu
      ensuite bouton download, et on se laisse guider

      donc après, si tu demandes gentiment, on peut te générer une liste (en attendant d'avoir la fonction automatique qui va bien), de toutes les phrases en X ayant une traduction en Y à un instant T, et tu n'auras plus qu'à l'exporter au format anki comme n'importe quelle liste sur tatoeba

      voila :)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.