C'est d'ailleurs dans cet aspect collaboratif que réside tout l'intérêt de Tatoeba : l'ensemble des phrases a été créé/traduit par des êtres humains. Ainsi, on peut non seulement trouver des phrases « naturelles », mais aussi poser des questions sur les phrases déjà présentes, afin de savoir si telle ou telle variation est correcte, dans quel cas on utiliserait cette phrase plutôt qu'une autre, etc.
Nous avons pour l'instant plus de 400 000 phrases réparties sur 53 langues et environ 4000 audios qui proviennent d'une collaboration avec le projet Shtooka. Pour ce qui est des licences, l'ensemble des phrases et audios sont sous CC-BY2.0/FR et le site en lui même est sous AGPL v3. Petit historique
Au départ, le projet est l'idée d'une ancienne étudiante de l'UTC qui ne trouvait pas de sites de phrases d'exemple alignées français/japonais. La première version du site a vu le jour en 2006. Plus tard ont été importées les phrases du corpus Tanaka (réalisé par le professeur japonais éponyme en demandant tous les ans à ses élèves 200 phrases japonaises traduites en anglais). Cela a permis d'augmenter la taille de la base de donnée (ce corpus contient environ 150 000 phrases en japonais et anglais) au détriment de la qualité globale des phrases. En effet, ce corpus ayant été compilé à partir de travaux d'étudiants japonais, un nombre conséquent de phrases anglaises ne sont pas naturelles ou contiennent des fautes de grammaire. Les personnes du sites wwwjdict collaborent avec nous pour corriger le plus possible ces phrases.
Un peu plus tard ont été importées les phrases d'un projet avorté de traduction en français de ce corpus japonais/anglais : 20 000 traductions françaises ont été ajoutées de cette manière. Ici aussi, cet autre projet n'ayant pas mis en place de relecture, beaucoup des phrases françaises provenant de cet apport sont des traductions approximatives.
Fonctionnement du site
Ces deux principales sources de phrases n'étant pas fiables, il a été nécessaire de mettre en place un système permettant rapidement de voir si une phrase est "fiable" ou non. Lorsqu'une personne ajoute une phrase, elle est indiquée comme "possédant" la phrase : seule elle et l'équipe de modération peuvent en changer le contenu, cela afin d'éviter les vandales et surtout pour créer un dialogue. Cela permet ainsi à la personne ayant ajouté une phrase fausse de remarquer son erreur. Cela permet aussi d'éviter les "fausses" corrections (corriger "après qu'il est" par "après qu'il soit").
Ainsi, une phrase n'appartenant à personne (typiquement les phrases venant des deux autres projets) est à prendre avec des pincettes et, si elle est fausse, il est possible (et recommandé) d'adopter la phrase pour ainsi pouvoir l'éditer. De cette manière, petit à petit, le nombre de phrases "orphelines" diminue. Plus tard, si une personne dépose un commentaire sur une phrase, le propriétaire d'une phrase verra ce commentaire et pourra y répondre.
Pour ce qui est de l'ajout de nouvelles langues, nous n'avons aucun parti pris. Nous attendons pour ajouter une langue uniquement une personne prête à contribuer dans ladite langue (pour éviter ainsi d'avoir des langues sans phrases, ce qui polluerait inutilement l'interface).
La machinerie
Le site est hébergé par la FSF France, que nous remercions grandement. Côté technique, cela reste classique : LAMP (php avec le framework cakephp). Pour ceux qui voudraient regarder le code source, il est disponible ici.
L'équipe
Tatoeba est resté pendant assez longtemps le seul fait de Trang (l'étudiante de l'UTC) avec le soutien ponctuel d'autres étudiants de l'UTC. Il y a un an, je l'ai rejointe sur le développement du site web ; quelques autres étudiants ont aussi apporté quelques améliorations.
L'avenir
Nous prévoyons sur le moyen terme une refonte du site pour passer sur Django (pour des raisons d'affinité, php étant utilisé à l'heure actuelle pour des raisons historiques), mais aussi sur le plan humain, à nous ouvrir plus sur l'extérieur, à nouer des liens avec d'autres projets, à promouvoir le projet.
À bientôt ! ([http://tatoeba.org/fre/sentences/show/337862])
Aller plus loin
- Site du projet (330 clics)
- Corpus Tanaka (d'où provient une majorité des phrases) (123 clics)
- Projet Shtooka (fournissant le matériel pour l'enregistrement) (46 clics)
- Derniers ajouts (42 clics)
# 例えば
Posté par warwick . Évalué à 2.
# Bravo !
Posté par xavier dumont . Évalué à 10.
[^] # Re: Bravo !
Posté par Axioplase ıɥs∀ (site web personnel) . Évalué à 1.
http://eow.alc.co.jp/ゴジラ/UTF-8/
Bon, ça ne fait qu'anglais<=>japonais, mais c'est pas nouveau, et c'est utilisé quotidiennement par bien des japonais…
Enfin, je vais jeter un œil à ce tatoeba…
# Amusant à petite dose
Posté par gasche . Évalué à 3.
Note technique : Je n'ai pas trouvé l'option de recherche « afficher les phrases en <telle langue> qui ne sont *pas* traduites en <telle langue> », bien qu'elle soit mentionnée comme présente dans le bugtracker. Elle me serait assez utile pour chercher des phrases à traduire.
[^] # Re: Amusant à petite dose
Posté par Allan Simon (site web personnel) . Évalué à 3.
Pour l'affinage de la recherche, pour l'instant on peut y accéder en cliquant sur un drapeau dans le petit carré "nombre de phrase par langue", cela amène à la page listant toutes les phrases dans la langue sélectionnée, avec possibilité de filtrage (voir uniquement les phrases ayant un audio etc.)
par exemple http://tatoeba.org/fre/sentences/show_all_in/fra/und/eng/ind(...)
toutes les phrases françaises n'ayant pas de traductions directes en français (avec toutes les traductions d'affichés)
Sinon j'ai oublié de l'ajouter dans la dépêche, mais le blog du projet (en anglais) où sont mis nos "changelogs" http://blog.tatoeba.org/
En tout cas merci pour les retours, et un plus grand merci encore à ceux qui ont ajouté des phrases.
PS: encore oublié de le préciser mais on a un canal #tatoeba sur freenode
# Comment son gérées les erreurs ?
Posté par mrlem (site web personnel) . Évalué à 4.
Concernant le site, super principe : les phrases d'exemple sont en effet souvent difficiles à trouver.
[^] # Re: Comment son gérées les erreurs ?
Posté par Allan Simon (site web personnel) . Évalué à 7.
deux cas de figure :
la phrase a été mal traduite et est fausse en elle même, (faute de français etc.) dans ce cas il suffit juste de "bien" retraduire la phrase
la phrase est correct en elle même mais n'est pas une traduction, et visiblement d'autre personne ont traduit cette phrase
du coup on se retrouve avec par exemple
Phrase "pivot" I eat an apple
Traduction directe : 我在吃苹果 (je mange une pomme, en chinois, donc bonne traduction)
Traduction directe: Le ciel est bleu
Traduction indirecte : Sky is blue
Dès lors nous avons un mécanisme qui nous permet de "délier" des phrases
et dans ce cas, il suffit juste de mettre un commentaire sur la phrase française "les traductions ne collent pas/translation doesn't match), et un modérateur, ou un utilisateur ayant les droits, déliera les "le ciel est bleu" de "I eat an apple"
et le probleme sera réglé, sans avoir besoin de modifier les phrases, qui en elles mêmes étaient toutes bonnes
voila, j'espère que cela répond à ta question
# Commentaire supprimé
Posté par Anonyme . Évalué à -2.
Ce commentaire a été supprimé par l’équipe de modération.
# html5
Posté par GG (site web personnel) . Évalué à 4.
j'espère que vous prendrez soin d'ajouter ce qu'il faut pour que l'on puisse directement écouter le son, sans devoir ajouter un plugin au navigateur.
Peut être s'inspirer de ce qui se fait chez Dogmazic.org
A bientôt
Grégoire
Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html
# Orthographe
Posté par djano . Évalué à 2.
Voila encore une super idée de projet, et je dois dire que je suis encore plus content de la co fertilisation des projets dans le domaine des langues:
- Wiktionnaire utilise Shtooka
- Tatoeba utilise Shtooka
- Les utilisateur de Wiktionnaire utilisent Tatoeba pour donner des exemples d'utilisation des mots? :)
Il y a juste un point qui m'a agacé dans l'interface de traduction. Le champ HTML dans lequel on tape les traductions est un text input comme ceci:
<input type="text" value="" class="addTranslationsTextInput" id="_158501_text" name="data[translation]">
Or, il semble que le correcteur orthographique de Firefox ne propose pas de corrections pour ce type de champ. Wikipedia, quand a lui utilise un textarea. J'ai alors droit a des propositions de corrections orthographiques.
Pensez-vous pouvoir améliorer ce point? Ou bien prévoyez-vous (sait-on jamais) d'intégrer un correcteur orthographique dans l'interface du site web (comme linuxfr.org)? Ça va être un peu plus compliqué pour gérer toutes les langues disponibles.
[^] # Re: Orthographe
Posté par trang . Évalué à 1.
Pour ce qui du est Wiktionnaire, on y pense depuis un bout de temps. Il faut juste qu'on trouve le temps d'aller parler à la communauté et voir comment on peut s'organiser.
[^] # Re: Orthographe
Posté par djano . Évalué à 2.
Oui, oui je sais, plus facile à dire qu'à faire, mais puisque je ne ferais pas, je peux au moins le dire? Si quelqu'un est assez motivé, il le fera, sinon tant pis, j'aurais parlé pour rien (mais ça ne m'aura pas coûté grand chose)
[^] # Re: Orthographe
Posté par Allan Simon (site web personnel) . Évalué à 1.
Par contre au vu de la longue liste de chose qu'il nous reste à faire, je ne sais pas quand cela sera fait, mais en tout cas ce sera fait un jour, merci pour l'idée :)
[^] # Re: Orthographe
Posté par Allan Simon (site web personnel) . Évalué à 2.
about:config
chercher la valeur
layout.spellcheckDefault , et passer la valeur à deux, et tout de suite après, la correction orthographique sera disponible dans les champs input text
mais je plussoie que nous devrions les remplacer par un textarea, vu que tout le monde ne connait pas cette petite astuce (d'ailleurs @trang, peut être mettre ce petit tips sur notre blog)
[^] # Re: Orthographe
Posté par djano . Évalué à 2.
Je me demandais aussi comment se comportent les autres navigateurs?
# Export vers Anki
Posté par guillaume Dorchies . Évalué à 1.
Est il possible de faire un export de toutes les phrases d'une certaine langue ayant une traduction dans une autre langue (au format CSV par exemple ... juste parce que anki sais le gérer :-) ? Cela permettrait de générer facilement des decks.
[^] # Re: Export vers Anki
Posté par Allan Simon (site web personnel) . Évalué à 2.
mais
l'export vers anki est possible à partir des listes,
exemple
http://tatoeba.org/fre/sentences_lists/show/1/deu
ensuite bouton download, et on se laisse guider
donc après, si tu demandes gentiment, on peut te générer une liste (en attendant d'avoir la fonction automatique qui va bien), de toutes les phrases en X ayant une traduction en Y à un instant T, et tu n'auras plus qu'à l'exporter au format anki comme n'importe quelle liste sur tatoeba
voila :)
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.