Enregistrer les langues du monde village par village avec Lingua Libre

24
6
juin
2021
Communauté

Lingua Libre est un site soutenu par l’association Wikimédia France. Il vise à faciliter l’enregistrement audio de prononciation de mots. En mars 2021, le site a souffert de l’incendie survenu dans le datacenter d’OVH à Strasbourg. Le site est revenu en ligne le 22 avril ; c’est l’occasion de présenter ce projet.

Avancées de la reconnaissance vocale en 2011

Posté par  (site Web personnel) . Modéré par baud123. Licence CC By‑SA.
42
27
mar.
2011
Audiovisuel

Voici un sujet qui fait parler de lui, un rêve de l'informatique qui s'approche à grand pas, voire qui est déjà présent dans bien des applications ! Vous avez certainement en tête le fameux « Via Voice » édité par IBM ou son successeur « Dragon naturally Speaking » édité par Scansoft. Les plus accros d'entre vous n'auront pas hésité à installer la reconnaissance vocale prévue par défaut dans XP, Vista ou Seven.

Mais lors du passage au libre, que nous effectuons pour la plupart pour des raisons différentes, avec des approches philosophiques, économiques ou pratiques, nous sommes confrontés à la perte de plusieurs des logiciels et/ou fonctionnalités que nous avions adoptés précédemment (compatibilité de notre écosystème logiciel). Pour ceux d'entre nous qui avaient fait le choix de la reconnaissance vocale, cette fonctionnalité reste difficilement remplaçable dans le monde de GNU/Linux. Les logiciels propriétaires cités précédemment ne sont pas prévus pour fonctionner sous nos distributions, et la communauté ne semble pas encore prête à offrir une alternative efficace. Il existe cependant quelques projets similaires dont l'avancement ne peut être négligé :

  • tout d'abord la source de données audio qui aide à la mise en place de ces projets : Voxforge collecte les données audio dans différentes langues pour permettre l'implémentation de l'utilisation de ces données par des moteurs de moteurs de reconnaissance vocale Open Source ;
  • CMUSphinx est le plus célèbre d'entre eux. Il permet – dans le cadre de la recherche principalement – d'obtenir la transcription écrite de données orales. D'un langage de programmation assez simple, basé sur des phonèmes, il permet d'obtenir des résultats prometteurs pour le développement d'applications libres selon les 3 règles chères aux plus stricts d'entre nous ;
  • un premier développement a été effectué il y a quelques années déjà pour la communauté française, avec Perlbox, qui permet de piloter son ordinateur en français, basé sur CMUsphinx 2 ;
  • une approche plus récente, toujours basée sur le projet CMUsphinx, est proposée par EvalDictator, mais pas encore disponible en français.

Alors vous me direz, quoi de neuf ? Et bien Google s'est aussi lancé dans la course à la reconnaissance vocale. Cela ne date pas d'hier :

Tatoeba.org, base de données de phrases d'exemple

Posté par  (site Web personnel) . Modéré par Florent Zara.
27
17
juil.
2010
Internet
Toute personne apprenant une langue s'est retrouvée un jour face à la question « Mais comment diable utilise-t-on ce mot/cette expression ? ». Le projet Tatoeba a été fondé pour répondre au besoin de pouvoir rapidement trouver des phrases illustrant un mot ou une expression. Le tout s'articule autour d'un site web [http://tatoeba.org], où chacun peut venir piocher des phrases dans les langues qui l'intéressent et, une fois inscrit, ajouter ses propres phrases, mais aussi traduire, corriger celles déjà existantes.

C'est d'ailleurs dans cet aspect collaboratif que réside tout l'intérêt de Tatoeba : l'ensemble des phrases a été créé/traduit par des êtres humains. Ainsi, on peut non seulement trouver des phrases « naturelles », mais aussi poser des questions sur les phrases déjà présentes, afin de savoir si telle ou telle variation est correcte, dans quel cas on utiliserait cette phrase plutôt qu'une autre, etc.

Nous avons pour l'instant plus de 400 000 phrases réparties sur 53 langues et environ 4000 audios qui proviennent d'une collaboration avec le projet Shtooka. Pour ce qui est des licences, l'ensemble des phrases et audios sont sous CC-BY2.0/FR et le site en lui même est sous AGPL v3.

Shtooka Party le 13 février 2010 à La Cantine

Posté par  . Édité par Benoît Sibaud. Modéré par baud123.
Étiquettes :
8
31
jan.
2010
Éducation
L'association Shtooka, dont nous parlons sur LinuxFr depuis 2006, a pour but d'enregistrer des collections audio libres de mots, proverbes, expressions pour toutes les langues du monde. Elle fêtera la mise en ligne du 100 000ème enregistrement audio lors d'un événement organisé le samedi 13 février 2010 à La Cantine, Paris 2e.

Cet événement s'adresse à tous ceux qui s'intéressent au Libre, aux professeurs de langues vivantes, aux associations culturelles des pays du monde, aux comités de jumelages ainsi qu'aux centres culturels de la capitale et de sa banlieue.

Au programme : des mini exposés (histoire du projet, l'organisation de l'association, les outils qu'elle développe, les usages des collections audio par d'autres projets, les licences libres...) mais aussi des ateliers et des démonstrations.

Ce sera également une occasion de rencontrer toutes celles et tous ceux qui ont déjà contribué de près ou de loin à notre projet ou qui souhaitent nous rejoindre.

L'entrée est libre.

OpenSpell : jeu libre d'apprentissage des langues

Posté par  (site Web personnel) . Modéré par Pascal Terjan.
Étiquettes :
4
20
août
2008
Éducation
OpenSpell est un logiciel libre sous licence GPL d'aide à l'apprentissage des langues étrangères, principalement destiné à l'apprentissage des mots courants et de leur prononciation. On y trouve trois parties :
  • écouter : voir une image et entendre le mot correspondant, d'abord épelé puis prononcé ;
  • pendu (le pendu est remplacé par des oiseaux sur une branche). C'est celui qui est le plus difficile, parce qu'il n'y a pas d'image ni de son pour aider. Et deviner un mot dans une langue étrangère est difficile. Surtout si le mot est court ;
  • écouter et épeler : on voit et on entend un mot. Il faut trouver comment il s'épelle. Les lettres utilisent un clavier à l'écran, ce qui est bien pratique pour l'arabe par exemple. C'est la partie la plus intéressante, elle permet de travailler sur l'écoute et la reconnaissance des sons. La fille de fleny68 (quasi 9 ans) s'est frottée à l'anglais et s'est rendu compte que ce n'est pas si facile à comprendre sans entraînement. Ça change de la prononciation franchouillarde de sa maîtresse.
C'est un logiciel que vous pouvez peut-être conseiller aux enseignants de primaire qui doivent enseigner l'anglais, et que vous pouvez utiliser à la maison. Un module d'administration permet d'ajouter des mots et des langues, et de configurer le clavier ; il est pour l'instant un peu instable et il faut utiliser la ligne de commande pour y accéder. Voir la FAQ.

Techniquement le jeu est en Java ; il utilise le codec Speex (version jspeex), qui est optimisé pour la voix et libre de brevets. Les fichiers sons sont marqués .spx, mais ce sont des Ogg avec encodage Speex.

Les langues disponibles sont les 11 langues Sud-Africaines (dont l'anglais) pour la version sud-africaine proposée sous Linux. Une version sénégalaise avec le français, l'arabe et le wolof est disponible sous forme de .exe (pour du java c'est idiot), on peut l'utiliser sous Linux en décompressant sous Wine et en utilisant le script run_openspell de la version sud-africaine.

NdM : information issue de la revue de presse de l'April. Merci à fleny68 pour avoir posté un journal à ce propos.

Journal OpenSpell (langue étrangère) (sans shtooka)

Posté par  .
Étiquettes :
0
19
août
2008
Aperçu sur la revue de presse de l'April:
http://www.afrik.com/article14960.html

OpenSpell est un logiciel d'aide à l'apprentissage des langues étrangères, principalement destiné à l'apprentissage des mots courants et de leur prononciation. On y trouve trois parties:

- écouter: voir une image et entendre le mot correspondant, d'anord épelé puis prononcé.
- pendu (le pendu est remplacé par des oiseaux sur une branche). C'est celui qui est le plus difficile, parce qu'il n'y a pas d'image ni de son pour aider. Et (…)

Projet Shtooka, quelques nouvelles...

Posté par  . Modéré par Nÿco.
Étiquettes :
0
7
mai
2008
Éducation
Que les amoureux des langues Slaves de l'Est se réjouissent ! Le Projet Shtooka vient de mettre à disposition des internautes une collection audio libre de 16 000 mots ukrainiens. Cette collection est publiée sous licence libre Creative Commons BY (Attribution). De plus nous avons enregistré près de 8000 mots biélorusses fin mars.

C'est, je pense, une bonne occasion pour faire le point sur le projet.

Le Projet Shtooka vise à constituer un ensemble de bases de données audio linguistiques afin de développer des outils logiciels pour l'apprentissage des langues étrangères.
Le nombre total d'enregistrements libres sur notre serveur atteint maintenant le chiffre de 75 000. La «Collection audio libre de mots français» a, par exemple, doublé de taille depuis sa création. Malgré tout, il est à regretter que l'espagnol et l'allemand qui sont pourtant deux langues fortement enseignées en France restent si mal représentées...

Il s'agit en fait d'un euphémisme, puisque nous n'avons toujours pas un seul enregistrement en espagnol. Avis aux amateurs!

Publication d'une « Base audio libre de mots tchèques »

Posté par  . Modéré par Nÿco.
0
20
nov.
2007
Éducation
Le « Projet Shtooka » est fier de pouvoir vous présenter sa dernière collection audio de mots et expressions.

La « Base audio libre de mots tchèques » rassemble l'enregistrement de la prononciation d'environ 3500 mots et expressions en langue tchèque.

Le contenu de cet ensemble d'enregistrement audio est distribué sous licence « Creative Commons Paternité 2.0 ». Vous pouvez donc librement la télécharger, la modifier, la rediffuser.

Ces enregistrements peuvent bien évidemment être écoutés par les personnes étudiant la langue tchèque leur permettant ainsi de faire connaissance avec la prononciation réelle des différents mots appris. Cependant, cette collection se destine essentiellement à la production de matériel pédagogique. Grâce à la mise à disposition d'index au format XML, les enregistrements peuvent être intégrés dans des dictionnaires électroniques, des plateformes pédagogiques ou bien être utilisés par des logiciels éducatifs.

Les verbes irréguliers anglais enfin libres !

Posté par  . Modéré par rootix.
0
29
oct.
2007
Éducation
Le Projet Shtooka a enregistré la prononciation des formes conjuguées d'environ 160 verbes irréguliers anglais qui sont habituellement présentés dans les manuels scolaires. Cette collections, comme l'ensemble des collections enregistrées par le Projet Shtooka (comme la "Base audio libre de mots français"), est distribuée sous licence "Creative Commons Paternité 2.0".

Ces fichiers sonores ont été prononcés par Alyson Heimer, une étudiante américaine originaire du Massachusetts.

Un ensemble d'exercices audio de mémorisation est mis à disposition des internautes sous la même licence. La prononciation des formes conjuguées est précédée de la traduction du verbe en français. L'apprenant peut alors mémoriser les verbes irréguliers grâce à une écoute répétée, se familiarisant par là même avec leur prononciation réelle.

Vivent les collections audio SWAC !

Posté par  . Modéré par Jaimé Ragnagna.
Étiquettes :
0
25
mar.
2007
Éducation
SWAC Metatags propose une dénomination pour une quarantaine de champs supplémentaires au système des tags Vorbis Comment (ces informations qui accompagnent les fichiers audio Ogg et Flac) pour stocker les informations propres aux collections audio de mots ou d'expressions (la langue maternelle et la région d'origine du locuteur, le mot prononcé etc...). Ces collections peuvent servir de matière première pour des logiciels éducatifs (logiciels de dictée, apprentissage du vocabulaire, dictionnaire électroniques etc..).

Nous avons mis en place cinq collections de ce type : russe, chinois, français, anglais et néerlandais (pour un total d'environ 30 000 mots).
Ces collections sont librement et facilement téléchargeables depuis notre serveur (sous licence Creative Commons BY).

De plus, l'interopérabilité, n'a pas été oubliée : le contenu de ces bases de données est utilisable par n'importe quel développeur grâce à la mise à disposition d'index XML.
Quelques outils logiciels, distribués sous licence GPL permettent d'ores et déjà de tirer parti de ce matériel audio :
  • «Shtooka Explorer» permet la consultation de ces collections de façon locale ou via internet ;
  • «Shtooka Recorder» permet l'enregistrement systématique de listes de mots ou expressions (il permet d'enregistrer un millier de mots en moins d'une heure).

Base audio libre de mots russes

Posté par  . Modéré par Jaimé Ragnagna.
Étiquettes :
0
12
oct.
2006
Éducation
Mi-juillet, nous vous annoncions l'ouverture de "la base audio libre de mots français": collection sonore libre dédiée à l'apprentissage du français comme langue étrangère ainsi qu'à la production de matériel pédagogique.

Aujourd'hui nous avons le plaisir de vous annoncer l'ouverture de "la base audio libre de mots Russes". Cette collection sonore qui comprend aujourd'hui plus de 5000 enregistrements est distribuée librement sous licence "Creative Commons Paternite 2.0".

Les fichiers sonores ont tous été enregistrés par la même locutrice : une femme ayant grandi au Kazakhstan dont le russe est la langue maternelle.

L'ensemble des enregistrements sonores accompagné d'un index XML et d'un index alphabétique HTML peut être téléchargé depuis le site. Les fichiers audio peuvent également être téléchargés individuellement aux formats ogg et mp3.

Cette collection sonore comme sa soeur jumelle en langue française sont des réalisations du "projet shtooka".