Liens connexes

Dépêche modérée par

Dépêche éditée par

: Vivent les collections audio SWAC !

Posté par Nicolas (page perso, ). Modéré le 25 mars 2007.
0
SWAC Metatags propose une dénomination pour une quarantaine de champs supplémentaires au système des tags Vorbis Comment (ces informations qui accompagnent les fichiers audio Ogg et Flac) pour stocker les informations propres aux collections audio de mots ou d'expressions (la langue maternelle et la région d'origine du locuteur, le mot prononcé etc...). Ces collections peuvent servir de matière première pour des logiciels éducatifs (logiciels de dictée, apprentissage du vocabulaire, dictionnaire électroniques etc..).

Nous avons mis en place cinq collections de ce type : russe, chinois, français, anglais et néerlandais (pour un total d'environ 30 000 mots).
Ces collections sont librement et facilement téléchargeables depuis notre serveur (sous licence Creative Commons BY).

De plus, l'interopérabilité, n'a pas été oubliée : le contenu de ces bases de données est utilisable par n'importe quel développeur grâce à la mise à disposition d'index XML.
Quelques outils logiciels, distribués sous licence GPL permettent d'ores et déjà de tirer parti de ce matériel audio :
  • «Shtooka Explorer» permet la consultation de ces collections de façon locale ou via internet ;
  • «Shtooka Recorder» permet l'enregistrement systématique de listes de mots ou expressions (il permet d'enregistrer un millier de mots en moins d'une heure).

> Lire la suite (8 commentaires, moyenne: 1,8).   [dépêche : 5418 caractères]

L'enregistrement systématique de la prononciation de mots ou de phrases et ainsi la création de bases de données audio linguistiques sont rendus possible par l'informatique (avec des outils logiciels appropriés, il est possible d'enregistrer la prononciation d'un millier de mots en moins d'une heure).

Ces collections sonores ont plusieurs domaines d'utilisation. Une utilisation pédagogique : elles peuvent être utiles pour l'apprentissage du vocabulaire d'une langue étrangère, pour des exercices de dictée ou encore des exercices de compréhension ; ces collections peuvent servir à illustrer des dictionnaires électroniques ou encore être utile à la recherche en linguistique.

Les collections audio SWAC se présentent sous la forme d'ensembles de fichiers audio Ogg ou Flac contenant des informations supplémentaires (sur le locuteur, la collection, le mot, ...) dont le stockage est rendu possible par le système des tags Vorbis Comment.

Malheureusement, si la documentation officielle de Vorbis Comment propose une standardisation de noms de champs permettant de stocker des informations propres aux collections musicales (nom de l'artiste, nom du compositeur, nom de l'album) ces champs d'information ne peuvent être utilisés dans le cas de collections audio linguistiques.

Le système de dénomination des tags SWAC, dont nous proposons l'adoption, définit une quarantaine de champs dédiés à ce type de collection audio, avec, par exemple, un champ pour le code ISO 639-3 de la langue du mot prononcé, la langue maternelle du locuteur, la région et le pays d'origine du locuteur, le nom de la collection, etc...

Pour illustrer notre propos, nous avons préparé cinq collections sonores, pour un total d'environ 30 000 mots.
Cinq voix différentes ; cinq langues différentes : anglais, russe, chinois, français ainsi que néerlandais. Trois de ces collections ont été enregistrées par notre équipe et les lecteurs réguliers de Linuxfr en ont déjà été informés au cours de l'année 2006. Il s'agit des bases audio libres de mots français, russes et chinois. Des tags SWAC ont été ajouté à ces fichiers.

À ces collections viennent s'ajouter deux collections qui proviennent du projet Wiktionnaire (le dictionnaire du projet Mediawiki). Ces fichiers ont été rassemblés grâce à l'aide de techniciens de Mediawiki-Commons, triés, normalisés puis tagués (il a fallut extraire les informations à partir des noms de fichiers : mot prononcé, intonation, index permettant de distinguer différents homographes).
La collection en langue anglaise a depuis été enrichie de 50% de mots supplémentaires, grâce à l'utilisation par l'équipe du Wiktionnaire de notre outil d'enregistrement (Shtooka Recorder). Nous avons également ajouté un paquet « Conjugaisons » au paquet français (80 verbes ont été conjugués au présent, à l'imparfait ainsi qu'au futur. Le listing de ces enregistrements a été généré grâce au fichiers XML de définitions du logiciel Verbiste).

Ces collections sonores, sont librement et facilement téléchargeables depuis notre serveur dans (sous licence Creative Commons BY) différents formats (ogg, flac). De plus, des index au format XML, permettent un accès distant aux informations contenues dans ces fichiers. Il est donc possible, pour n'importe quel développeur d'utiliser ce matériel audio.

Il existe aujourd'hui une petite palette d'outils logiciels, distribués sous licence GPL, qui permettent de travailler avec les collections SWAC :


Vous pouvez aider notre projets de différentes façons :

Cette discussion est archivée, il n'est plus possible de laisser des commentaires.

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.

[+] pochette d'album

Posté par wistiti68 () le 25/03/2007 à 18:18. (lien). Évalué à -3.

Ça n'a pas l'air d'être en rapport avec votre projet, mais, est-ce que les pochettes d'album font-ils partie des nouveaux tags?
Personnellement, ce manque est une des raisons principales pour lesquels ma collection reste encore en mp3 :-(
(l'autre étant que mon baladeur ne supporte pas l'ogg)

Bravo

Posté par BohwaZ (Jabber id, page perso, ) le 25/03/2007 à 21:30. (lien). Évalué à 3.

Un superbe projet à la base, et une évolution particulièrement intéressante. Je ne suis pas utilisateur quotidien mais je trouve le projet très beau et passionant.

Merci beaucoup et continuez !

shtooka-explorer

Posté par idodesuke () le 26/03/2007 à 02:15. (lien). Évalué à 1.

Un SUPER projet!
mais:
Pourquoi avoir utilisé du Pascal pour shtooka-explorer_1.0_src.zip ???

Revenir en haut de page