Mozilla Common Voice : vers une reconnaissance vocale libre

Posté par Denis Dordoigne le 01 août 2017 à 11:46. Édité par Benoît Sibaud, Davy Defaud, ZeroHeure et claudex. Modéré par ZeroHeure. Licence CC By‑SA.

Étiquettes :

août

2017

La Fondation Mozilla a discrètement lancé le projet Common Voice, qui a pour objectif de fournir une base de données de voix à destination des développeurs de logiciels de reconnaissance vocale. D’ici la fin de l’année, la base de données sera mise à disposition de la communauté sous licence CC-0, et pourra être utilisée par les développeurs pour entraîner leurs logiciels de reconnaissance vocale.

Il est actuellement possible de participer depuis le Web, en lisant des phrases en anglais et en indiquant son accent, son âge et son genre pour enrichir la base de données. Des applications sont déjà en cours de développement pour les appareils mobiles et devraient être disponibles prochainement. Pour ceux qui ne parlent pas anglais, il est aussi possible de contribuer au projet en produisant des phrases pertinentes ainsi que du code dans GitHub.

Aller plus loin

Common Voices (868 clics)
Dépôt GitHub du projet (440 clics)

# But à long terme ?

Posté par thoasm le 01 août 2017 à 12:08. Évalué à 10.

Il n’y a aucune malice dans la question, juste de la curiosité.

C’est un projet qui s’inscrit dans les buts de la fondation Mozilla ou c’est « juste » pour avoir de la reconnaissance vocale libre ? (ce qui serait déja très bien)

Je vois très bien l’intérêt du vocal pour l’accessibilité du web évidemment, mais la finalité de Mozilla c’est l’intégration dans Firefox, ou la création d’un « Siri » libre ou encore rien de défini ?

Par ailleurs j’en profite pour poser la question des lecteurs vocaux libres. C’est aussi fondamental pour l’accessibilité du web. On a des retours d’expériences la dessus ? Ça marche bien ?
- [^] # Re: But à long terme ?
  
  Posté par Nyx le 03 août 2017 à 20:28. Évalué à 1.
  
  Je ne sais pas si les projets sont effectivement liés, mais ils ont aussi lancé ça:
  https://testpilot.firefox.com/experiments/voice-fill
- [^] # Re: But à long terme ?
  
  Posté par BMABMA le 05 août 2017 à 17:55. Évalué à 5.
  
  Bonjour,
  
  Je donne ici un retour d'expérience sur les (le) lecteurs (lecteur) vocaux (vocal) libres (libre)".
  
  J'ai accompagné pendant plus de 6 mois un ami aveugle qui avait un logiciel sous windows (je ne me souviens plus le nom) depuis une vingtaine d'années. Il a été victime d'un ransomware qui a crypté toutes ses données: une véritable encyclopédie de témoignages sur l'utilisation des plantes médicinales et de toponymie locale.
  J'ai cherché ce qui pourrait remplacer, en logiciel libre, son logiciel sous windows: j'ai essayé handylixux, puis accessdvlinux.fr, et finalement, selon son expérience a lui, nous sommes convenu d'utiliser une distribution Debian/GNU Linux de base avec Debian Jessie.
  Cela lui convenait, et fonctionnait plutôt bien, bien que Orca ne résistait pas à sa vitesse de saisie au clavier; un petit script et un raccourci clavier lui permettait de le relancer.
  Mais sa difficulté a été la qualité de la voix.
  La seule voix libre, disponible sous Debian, en français, ne lui convenait pas.
  Il s'agit d'une voix de synthèse qui lui fendait les neurones.
  
  Nous avons donc acheté les voix utilisables sous GNU/Linux, non libres, que nous avons trouvé: Voxin et Kali.
  Il n'a pas, non plus, supporté ces voix. Difficile pour un voyant de juger, moi elles me convenaient!
  
  Toujours est il qu'il a acheté une machine Apple avec une vraie voix, en français.
  
  Cela m'a mobilisé plusieurs centaines d'heures pour me familiariser avec ces technologies et accompagner mon ami aveugle. Impossible de lutter avec une entrepise qui utilise toutes les voix des utilisateurs du monde entier traitées dans des algo et dont les résultats économique avoisinent 800 milliards de dollars de capitalisation boursière et plus de 200 milliards de dollars de trésorerie.
  
  Il y a un énorme travail a réaliser ! Bienvenue à la fondation Mozilla ou a toute autre initiative !
  - [^] # Re: But à long terme ?
    
    Posté par alexarnaud le 06 août 2017 à 22:35. Évalué à 0.
    
    Bonjour M. BMABMA,
    
    Tout d'abord je voudrais saluer votre implication pour l'aide que vous avez apporté à votre ami non-voyant.
    
    Il est très délicat d'accompagner une personne déficiente visuelle dans l'usage de l'informatique libre quand on n'est pas soit-même expérimenté dans l'usage des lecteurs d'écrans et des différentes configurations requises pour un bon fonctionnement d'un environnement GNU/Linux accessible.
    C'est pour cela que la société Hypra existe, à la fois pour proposer un système clé en main accessible à tous, adaptable pour l'utilisateur et simple d'accès, et en proposant un accompagnement (formation, support) pour permettre à tous d'être capable de maîtriser son environnement informatique afin de permettre de gagner en autonomie.
    
    Il existe désormais les voix Voxygen qui sont de mêmes qualités que celles disponibles sur les systèmes Windows et Mac, comme pour Kali, il faut se rapprocher d'Hypra pour en disposer.
    
    Cordialement.
    - [^] # Re: But à long terme ?
      
      Posté par BMABMA le 08 août 2017 à 08:23. Évalué à 1.
      
      Bonjour alexarnaud,
      
      Effectivement nous avions contacté Hypra pour acheter la voix Kali; à ce moment là vous ne nous aviez pas proposé Voxygen.
      Orca convenait très bien, la décision de mon ami aveugle n'a été que sur la qualité de la voix.
      
      Merci pour votre aide.
- [^] # Re: But à long terme ?
  
  Posté par alexarnaud le 06 août 2017 à 22:42. Évalué à 1.
  
  Par ailleurs j’en profite pour poser la question des lecteurs vocaux libres. C’est aussi fondamental pour l’accessibilité du web. On a des retours d’expériences la dessus ? Ça marche bien ?
  
  Bonjour,
  
  Nous avons à la fois des retours mais surtout des utilisateurs qui utilisent le lecteur d'écran Orca sous système GNU/Linux à la fois dans le cadre personnel que professionnel.
  
  Les usages sont multiples : lecture de pages web, bureautique, messagerie, messageries instantanées, traitement audio, programmation informatique, etc.
  
  Je vous écris ce message à l'aide du lecteur d'écran Orca et du logiciel d'agrandissement EZoom depuis Debian :).
  
  Cordialement.
# Sexe

Posté par 🚲 Tanguy Ortolo (site web personnel) le 01 août 2017 à 12:21. Évalué à 10.

Il est actuellement possible de participer depuis le web, en lisant des phrases en anglais et en indiquant son accent, son âge et son genre pour enrichir la base de données.

Pas son genre, son sexe. S'agissant de reconnaissance vocale, ce qui importe, ce n'est pas la perception psychologique qu'un individu a de son identité sexuelle, mais les caractéristiques morphologiques qui pourront influer sur sa voix, dont notamment, son sexe.
- [^] # Re: Sexe
  
  Posté par thoasm le 01 août 2017 à 12:29. Évalué à 5.
  
  Bof. Il y a des mecs entendu à la radios dont j’aurai juré qu’ils étaient des femmes et inversement.
  - [^] # Re: Sexe
    
    Posté par Pol' uX (site web personnel) le 01 août 2017 à 14:25. Évalué à 8.
    
    Ouais, entre Jeanne Moreau et Frédéric Fromet, y a de quoi se poser questions. :)
    
    Adhérer à l'April, ça vous tente ?
  - [^] # Re: Sexe
    
    Posté par 🚲 Tanguy Ortolo (site web personnel) le 01 août 2017 à 16:20. Évalué à 9.
    
    Évidemment, les généralités ne se vérifient pas dans tous les cas. Mais c'est comme pour une étude sur la taille des gens par exemple : on va leur demander s'ils sont nés hommes ou femmes, parce que ça a une influence sur la taille, d'une façon générale. Pas s'ils se sentent hommes ou femmes, parce que ça n'en a aucune, pour le coup. Et le fait que certaines femme soient plus grandes que certaines hommes n'y change rien.
    - [^] # Re: Sexe
      
      Posté par thoasm le 01 août 2017 à 16:41. Évalué à 1.
      
      Comment tu peux à priori exclure qu’il y ait des traductions « physique » chez les transgenre ? Genre que certains transgenre aient eu un développement hormonal différent qui induit des différence dans le timbre de voix - on sait que la taille relative des doigts dépend du taux de testostérone à une période du développement par exemple. Dans ce cas le genre (à supposer qu’il soit corrélé avec certaine caractéristique physiques différente du sexe) pourrait être pertinent. Avec plus d’infos sur le genre différentes à filer à l’algo d’apprentissage, genre peut être que la voie d’une femme transgenre a des caractéristique différentes à la fois de la voix de la voix d’un homme et de la voix d’une femme.
      
      J’ai aucune idée sur la question, mais je ne l’exclu pas.
    - [^] # Re: Sexe
      
      Posté par deuzene (site web personnel) le 02 août 2017 à 02:11. Évalué à 2.
      
      Évidemment, les généralités ne se vérifient pas
      
      « L’intersexuation semble concerner de 1 à 2 % des naissances dans l’espèce humaine. »
      
      Les documents administratifs (CNI en particulier) ne sont pas près de prendre en compte ces différences. Enfin plutôt ce continuum.
      
      on va leur demander s'ils sont nés hommes ou femmes
      
      Ils répéterons ce qu'on leur aura appris sur ce qu'il sont censés être, liront leur état civil.
      
      « Il vaut mieux mobiliser son intelligence sur des conneries que mobiliser sa connerie sur des choses intelligentes. »
      - [^] # Re: Sexe
        
        Posté par 🚲 Tanguy Ortolo (site web personnel) le 02 août 2017 à 09:55. Évalué à 5.
        
        L'intersexuation serait intéressante à distinguer dans ce genre de travail, parce qu'elle a certainement une influence sur la vois. Mais c'est différent du genre.
        
        [^] # Re: Sexe
        
        Posté par lejocelyn (site web personnel) le 07 août 2017 à 10:37. Évalué à 2.
        
        Mouais, c'est bien différent du genre, mais ça ne rend pas le genre inopérant pour autant. Il me semble que pour être précis, distinguer les deux, genre et sexe, serait intéressant. J'ai en fait dû mal à imaginer comment la manière dont quelqu'un s'identifie socialement, par exemple pour le genre sexuellement, n'influerait pas sur sa voix (timbre, rythme, prosodie, etc). On pourrait aussi mettre sa catégorie socio-professionnelle, je suis presque certain que l'on verrait des distinctions régulières opérer.
  - [^] # Re: Sexe
    
    Posté par cluxter le 01 août 2017 à 19:33. Évalué à 1.
    
    Justement, ça entre en compte dans les stats de l'outil. Si pour 100 femmes 4 ont une voix qu'un assimilerait à celle d'un homme, l'outil saura en tenir compte à long terme (s'il est bien fait). Les apprentissages statistiques savent déceler des choses que les êtres humains ne savent pas faire.
    - [^] # Re: Sexe
      
      Posté par thoasm le 01 août 2017 à 19:42. Évalué à 5.
      
      Sûrement mais, il est censé faire quoi de cette info ? Autant ne rien demander et lui laisser faire des typologie tout seul que lui fournir des infos de classification a priori qui pourraient être contre productive (on sais pas). Enfin cela dit il pourrait les ignorer si ça lui chante.
      - [^] # Re: Sexe
        
        Posté par cluxter le 08 août 2017 à 03:35. Évalué à 1.
        
        Pas faux, en effet. J'imagine que le but est d'arriver à pouvoir proposer 2 types de voix, une voix féminine et une voix masculine.
      - [^] # Re: Sexe
        
        Posté par KiKouN le 18 août 2017 à 16:36. Évalué à 2.
        
        Le but est peut-être de justement donner moins de poids aux catégories surreprésentées pour que le logiciel ne pense pas qu'il y a 75% d'hommes par exemple.
  - [^] # Re: Sexe
    
    Posté par Larry Cow le 02 août 2017 à 07:37. Évalué à 3.
    
    des femmes et inversement.
    
    Tout à fait, mais ça n'est pas davantage lié au genre pour autant.
    - [^] # Re: Sexe
      
      Posté par thoasm le 02 août 2017 à 11:08. Évalué à 1.
      
      Je n'ai aucun a priori sur la question. En particulier sur le fait que le《genre》, ressenti donc subjectif, se decide sur des bases biologiques (non visibles) ou pas. Il y a concensus sur le fait que le genre soit mieux decide par l'individu, qu'il est different du sexe biologique. Pour autant c'est pas pour ca qu'il ne tire pas racine pour partie dans la biologie de l'individu.
- [^] # Re: Sexe
  
  Posté par Denis Dordoigne le 01 août 2017 à 13:07. Évalué à 8.
  
  J'ai hésité sur la traduction de gender, j'ai opté pour genre parce que le choix other est proposé en plus de male et female, sur le coup ça m'a semblé plus cohérent, mais je ne suis pas certain de mon choix.
  
  Membre de l'april, et vous ? https://april.org/adherer -- Infini, l'internet libre et non commercial : https://infini.fr
  - [^] # Re: Sexe
    
    Posté par Zenitram (site web personnel) le 01 août 2017 à 18:09. Évalué à 4.
    
    gender
    
    Ta traduction est donc bonne, et ce n'est pas ce qui est critiqué par le commentaire.
    Ton choix est donc bon pour la traduction.
# mycroft

Posté par mfoucrier le 01 août 2017 à 12:35. Évalué à 2.

Ce projet se pose en complément, en parallèle ou en plus de ce que fait la partie reconnaissance vocale de mycroft (https://mycroft.ai/ et https://github.com/MycroftAI)?!
- [^] # Re: mycroft
  
  Posté par Xarboule le 02 août 2017 à 12:08. Évalué à 2.
  
  Mycroft c'est un projet complet dont le client est open source, mais on a le choix d'utiliser plusieurs STT (Speak To Text) dont celui de l'API Mycroft, mais cette partie n'est pas open source.
  
  Ce que propose Mozilla c'est plutôt d'avoir accès à une base de données pour pouvoir travailler à la conception d'un STT soi même :-)
  Ce qui est très intéressant, parce que pour le moment, je n'ai pas trouvé de système de STT libre utilisable offline et qui donne de bons résultats (il y a PocketSphinx mais les résultats sont assez mauvais, à moins que je n'aie pas trouvé comment l'utiliser efficacement)
# Pertinence face à Voxforge?

Posté par jnanar (site web personnel) le 01 août 2017 à 12:37. Évalué à 10.

Le projet Voxforge existe depuis de nombreuses années. Il est possible de télécharger librement des modèles acoustiques et des voix. La licence est la GPL. Est-ce la licence qui a empêché Mozilla d'utiliser ces données? Leur F.A.Q. ne parle pas de ces considérations. C'est dommage car il existe déjà des données pour l'anglais sur Voxforge mais le français est toujours incomplet. Il est également possible de contribuer.

Pour utiliser la reconnaissance vocale en français sous linux, il faut actuellement passer par des solutions propriétaires (par exemple les API google) ou se limiter à un vocabulaire restreint en entraînant son propre modèle. C'est dommage car des projets sympas tels que openjarvis (un assistant personnel) permettent des choses très sympas et utiles avec la reconnaissance vocale.

https://www.openjarvis.com/content/stt
# explications

Posté par EauFroide le 01 août 2017 à 13:07. Évalué à 3.

Je n'ai pas bien compris, ce projet vise-t-il le speech-to-text, le text-to-speech ou les deux?

On va enfin pouvoir essayer yana, s.a.r.ah et co sans dependance envers windobe ni google? :P

Donation Bitcoin : 1N8QGrhJGWdZNQNSspm3rSGjtXaXv9Ngat
- [^] # Re: explications
  
  Posté par Bruno Michel (site web personnel) le 01 août 2017 à 18:44. Évalué à 7.
  
  Tu peux déjà essayer Snips (https://github.com/snipsco/snips-platform-documentation). Ce n'est pas libre, mais ça devrait le devenir et c'est déjà respectueux de ta vie privée.
# Et les autres langues, le français en particulier ?

Posté par Pierre Jarillon (site web personnel) le 02 août 2017 à 21:44. Évalué à 10.

Traiter l'anglais, c'est bien mais traiter le français serait encore mieux (du moins pour nous).
il y a longtemps en 2001, j'avais fait une tentative : http://pjarillon.free.fr/eurolang/cetral-propos.fr.html qui n'a malheureusement pas eu de suite. Seize ans plus tard, le problème est toujours d'actualité.
Il parait que les langues pivot auxquelles je croyais il y a 16 ans ne sont plus des voies d'avenir mais le fond du problème est inchangé.

Vers 1990, IBM avait fait un important travail sur la reconnaissance vocale. Les problèmes financiers de l'entreprise ont stoppé net ces travaux. J'avais eu l'occasion vers 2001 de rencontrer un dirigeant d'IBM et je lui ai suggéré de libérer les travaux plutôt que de les enterrer. Quelques mois plus tard, j'ai appris que cela avait été fait.
Les travaux d'IBM France portaient sur la reconnaissance du français. Mon interlocuteur m'a alors affirmé que la pire des langues vocales à analyser était l'anglais.

Mozilla ferait sans doute mieux pour commencer a étudier des langages bien articulés comme l'italien, le japonais, le français et le basque. Les chances de succès seraient bien meilleures.
- [^] # Re: Et les autres langues, le français en particulier ?
  
  Posté par tipic le 04 août 2017 à 08:47. Évalué à 1.
  
  J'allais le dire ! Perso les autres langues ne m'intéresse pas.
- [^] # Re: Et les autres langues, le français en particulier ?
  
  Posté par freem le 04 août 2017 à 10:25. Évalué à 3.
  
  Mozilla ferait sans doute mieux pour commencer a étudier des langages bien articulés comme l'italien, le japonais, le français et le basque. Les chances de succès seraient bien meilleures.
  
  Tu as probablement raison sur l'aspect technique, mais je ne pense pas que ce soit ce qui les intéresse le plus: avec l'anglais c'est plus simple de toucher plus de monde, ils ont un potentiel économique et de contributions plus élevé que s'ils prenaient une autre langue.
  
  À en croire l'article wikipedia que j'ai cité, il n'y aurai pas vraiment de raison de travailler sur une des langues que tu cites. Et la différence dans l'ordre de grandeur des population est non négligeable, aussi.
  Pour qu'un projet aboutisse, il ne faut pas juste réduire la difficulté technique, il faut aussi avoir des utilisateurs, beaucoup de préférence.
  - [^] # Re: Et les autres langues, le français en particulier ?
    
    Posté par BAud (site web personnel) le 04 août 2017 à 12:26. Évalué à 2.
    
    ils ont un potentiel économique et de contributions plus élevé que s'ils prenaient une autre langue.
    
    l'espagnol donc :-) (voir la colonne "total")
- [^] # Re: Et les autres langues, le français en particulier ?
  
  Posté par alex666 le 04 août 2017 à 21:23. Évalué à -5. Dernière modification le 04 août 2017 à 21:26.
  
  Des langues pivot ??? Kékséksa? Chacun sait depuis Saint Gogol que seul l'anglais est un pivot de droit divin, et qu'autour de ce pivot tourne le monde civilisé, et en particulier la CEE, où l'anglais est langue officielle (très partielle) de Malte (400 000 habitants) et de l'Eire (à peine 4 millions). Rappelons que le latin est la langue officielle du Vatican.
  - [^] # Re: Et les autres langues, le français en particulier ?
    
    Posté par ninjaWax le 08 août 2017 à 12:28. Évalué à 2. Dernière modification le 08 août 2017 à 12:28.
    
    La CEE n'existe plus depuis fin 1993.
    
    En ce qui concerne les langues de l'UE, la réponse est ici
# En lien avec voice-fill?

Posté par Anonyme le 04 août 2017 à 11:13. Évalué à 2.

C'est probablement en lien avec voice-fill?

https://testpilot.firefox.com/experiments/voice-fill/

Voice Fill uses artificial intelligence to interpret speech input. As a participant in the Voice Fill experiment, your voice searches will teach our AI to provide smarter results.
# Commentaire supprimé

Posté par usman9180 le 21 août 2017 à 19:20. Évalué à 0. Dernière modification le 21 août 2017 à 19:37.

Ce commentaire a été supprimé par l’équipe de modération.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.