Vivent les collections audio SWAC !

Posté par  . Modéré par Jaimé Ragnagna.
Étiquettes :
0
25
mar.
2007
Éducation
SWAC Metatags propose une dénomination pour une quarantaine de champs supplémentaires au système des tags Vorbis Comment (ces informations qui accompagnent les fichiers audio Ogg et Flac) pour stocker les informations propres aux collections audio de mots ou d'expressions (la langue maternelle et la région d'origine du locuteur, le mot prononcé etc...). Ces collections peuvent servir de matière première pour des logiciels éducatifs (logiciels de dictée, apprentissage du vocabulaire, dictionnaire électroniques etc..).

Nous avons mis en place cinq collections de ce type : russe, chinois, français, anglais et néerlandais (pour un total d'environ 30 000 mots).
Ces collections sont librement et facilement téléchargeables depuis notre serveur (sous licence Creative Commons BY).

De plus, l'interopérabilité, n'a pas été oubliée : le contenu de ces bases de données est utilisable par n'importe quel développeur grâce à la mise à disposition d'index XML.
Quelques outils logiciels, distribués sous licence GPL permettent d'ores et déjà de tirer parti de ce matériel audio :
  • «Shtooka Explorer» permet la consultation de ces collections de façon locale ou via internet ;
  • «Shtooka Recorder» permet l'enregistrement systématique de listes de mots ou expressions (il permet d'enregistrer un millier de mots en moins d'une heure).
L'enregistrement systématique de la prononciation de mots ou de phrases et ainsi la création de bases de données audio linguistiques sont rendus possible par l'informatique (avec des outils logiciels appropriés, il est possible d'enregistrer la prononciation d'un millier de mots en moins d'une heure).

Ces collections sonores ont plusieurs domaines d'utilisation. Une utilisation pédagogique : elles peuvent être utiles pour l'apprentissage du vocabulaire d'une langue étrangère, pour des exercices de dictée ou encore des exercices de compréhension ; ces collections peuvent servir à illustrer des dictionnaires électroniques ou encore être utile à la recherche en linguistique.

Les collections audio SWAC se présentent sous la forme d'ensembles de fichiers audio Ogg ou Flac contenant des informations supplémentaires (sur le locuteur, la collection, le mot, ...) dont le stockage est rendu possible par le système des tags Vorbis Comment.

Malheureusement, si la documentation officielle de Vorbis Comment propose une standardisation de noms de champs permettant de stocker des informations propres aux collections musicales (nom de l'artiste, nom du compositeur, nom de l'album) ces champs d'information ne peuvent être utilisés dans le cas de collections audio linguistiques.

Le système de dénomination des tags SWAC, dont nous proposons l'adoption, définit une quarantaine de champs dédiés à ce type de collection audio, avec, par exemple, un champ pour le code ISO 639-3 de la langue du mot prononcé, la langue maternelle du locuteur, la région et le pays d'origine du locuteur, le nom de la collection, etc...

Pour illustrer notre propos, nous avons préparé cinq collections sonores, pour un total d'environ 30 000 mots.
Cinq voix différentes ; cinq langues différentes : anglais, russe, chinois, français ainsi que néerlandais. Trois de ces collections ont été enregistrées par notre équipe et les lecteurs réguliers de Linuxfr en ont déjà été informés au cours de l'année 2006. Il s'agit des bases audio libres de mots français, russes et chinois. Des tags SWAC ont été ajouté à ces fichiers.

À ces collections viennent s'ajouter deux collections qui proviennent du projet Wiktionnaire (le dictionnaire du projet Mediawiki). Ces fichiers ont été rassemblés grâce à l'aide de techniciens de Mediawiki-Commons, triés, normalisés puis tagués (il a fallut extraire les informations à partir des noms de fichiers : mot prononcé, intonation, index permettant de distinguer différents homographes).
La collection en langue anglaise a depuis été enrichie de 50% de mots supplémentaires, grâce à l'utilisation par l'équipe du Wiktionnaire de notre outil d'enregistrement (Shtooka Recorder). Nous avons également ajouté un paquet « Conjugaisons » au paquet français (80 verbes ont été conjugués au présent, à l'imparfait ainsi qu'au futur. Le listing de ces enregistrements a été généré grâce au fichiers XML de définitions du logiciel Verbiste).

Ces collections sonores, sont librement et facilement téléchargeables depuis notre serveur dans (sous licence Creative Commons BY) différents formats (ogg, flac). De plus, des index au format XML, permettent un accès distant aux informations contenues dans ces fichiers. Il est donc possible, pour n'importe quel développeur d'utiliser ce matériel audio.

Il existe aujourd'hui une petite palette d'outils logiciels, distribués sous licence GPL, qui permettent de travailler avec les collections SWAC :
  • «Shtooka Explorer» est une interface pour Windows et Linux (et bientôt Mac OS X) qui permet de consulter ces collections sonores de façon locale ou distante (il est donc possible de consulter l'ensembles des enregistrements hébergés sur notre serveur sans avoir à télécharger l'ensemble de ces collections) ;
  • «Shtooka Recorder» est un outil qui permet l'enregistrement systématique de listes de mots ou expressions. Ces fichiers sont sauvegardés aux formats Wav, Ogg ou Flac et les informations sont encapsulées dans des tags SWAC (le portage linux de ce programme n'est pas encore achevé, mais celui-ci peut d'ores et déjà être utilisé avec à Wine) ;
  • «Shtooka Scanner» est un programme en ligne de commande disponible pour Linux, Windows (distribué avec les deux logiciels précédents) qui permet d'extraire les tags contenus dans l'ensemble des fichiers audio Ogg et Flac d'un répertoire, et de générer un index texte. Cet index peut ensuite être utilisé par différents programmes. Cet outil est utilisé pour la gestion de notre serveur et la génération d'index XML, il est également utilisé par Shtooka Explorer pour l'exploration de collections sonores locales.


Vous pouvez aider notre projets de différentes façons :
  • En nous aidant à développer de nouveaux outils pédagogiques tirant parti de ce matériel sonore (logiciels de dictée, d'apprentissage du vocabulaire) ;
  • En utilisant nos outils et nous proposant des améliorations ;
  • En nous aidant à créer les paquets d'installations ;
  • En constituant de nouvelles listes, ou en prêtant votre voix pour l'enregistrement de nouvelles collections sonores ;
  • En nous aidant à améliorer la cohérence des informations des collections déjà existantes ;
  • Et de dizaines d'autres façons (traduction, graphisme, soutien financier etc...).

Aller plus loin

  • # pochette d'album

    Posté par  . Évalué à -3.

    Ça n'a pas l'air d'être en rapport avec votre projet, mais, est-ce que les pochettes d'album font-ils partie des nouveaux tags?
    Personnellement, ce manque est une des raisons principales pour lesquels ma collection reste encore en mp3 :-(
    (l'autre étant que mon baladeur ne supporte pas l'ogg)
    • [^] # Re: pochette d'album

      Posté par  (site web personnel) . Évalué à 4.

      Allez hop, un baladeur pas trop cher, qui gère le ogg ET le flac, qui est reconnu sans rien faire sous Linux : le Meizu Miniplayer.
    • [^] # Re: pochette d'album

      Posté par  . Évalué à 1.

      Je possède un iAudio F2 qui interopère parfaitement avec GNU/Linux et il supporte les formats ogg et flac. Mais il coûte environ 150 euro.
      Normalement dans sa dernière version, le flac supporte les images. Cependant j'ai fait le test pour mon iAudio et ça a planté le firmware lorsque j'ai lancé la lecture. Soit c'est le baladeur qui ne le supporte pas, soit c'est le type d'image que j'ai ajouté au morceau musical qui n'est pas le bon (j'ai testé avec le type 1) ou alors c'est parce que je n'ai pas fourni une autre info nécessaire (cf lien 2). Je n'ai pas encore pris le temps pour tester plus amplement.

      http://flac.sourceforge.net/documentation_tools_metaflac.htm(...)
      http://flac.sourceforge.net/format.html#def_PICTURE
  • # Bravo

    Posté par  (site web personnel, Mastodon) . Évalué à 3.

    Un superbe projet à la base, et une évolution particulièrement intéressante. Je ne suis pas utilisateur quotidien mais je trouve le projet très beau et passionant.

    Merci beaucoup et continuez !

    « Je vois bien à quels excès peut conduire une démocratie d'opinion débridée, je le vis tous les jours. » (Nicolas Sarkozy)

    • [^] # Re: Bravo

      Posté par  . Évalué à 6.

      En tant que professeur de français langue étrangère, un projet comme celui-ci est d'une très grande utilité... Merci à tous ceux qui ont donné de leur temps et qui permettent de créer des ressources en ligne pour l'apprentissage des langues avec du libre et d'autres projets comme notamment JClic ou Moodle...
      • [^] # Re: Bravo

        Posté par  . Évalué à 1.

        Également utile pour les étudiants comme moi, surtout pour des langues qui requièrent de longues séances d'écoutes et de prononciations (pour moi en l'occurrence : le chinois). J'y aurai volontiers contribué si je n'avais pas l'accent d'une vache espagnole :/
        Dommage que l'on ai pas plus d'info sur le port de shtooka recorder, comme par exemple si il reposera sur Jack, etc.
        • [^] # gstreamer

          Posté par  . Évalué à 1.

          bonjour,

          le shtooka recorder pou linux repose sur gstreamer/pygtk : il fonctionne et il reste quelques finitions avant publication.

          d'autres outils en python/gtk (linux) sont en réécriture ...

          voilà

          Eric!
          ------
  • # shtooka-explorer

    Posté par  . Évalué à 1.

    Un SUPER projet!
    mais:
    Pourquoi avoir utilisé du Pascal pour shtooka-explorer_1.0_src.zip ???

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.