Mozilla Common Voice : vers une reconnaissance vocale libre

Posté par  . Édité par Benoît Sibaud, Davy Defaud, ZeroHeure et claudex. Modéré par ZeroHeure. Licence CC By‑SA.
44
1
août
2017
Mozilla

La Fondation Mozilla a discrètement lancé le projet Common Voice, qui a pour objectif de fournir une base de données de voix à destination des développeurs de logiciels de reconnaissance vocale. D’ici la fin de l’année, la base de données sera mise à disposition de la communauté sous licence CC-0, et pourra être utilisée par les développeurs pour entraîner leurs logiciels de reconnaissance vocale.

Il est actuellement possible de participer depuis le Web, en lisant des phrases en anglais et en indiquant son accent, son âge et son genre pour enrichir la base de données. Des applications sont déjà en cours de développement pour les appareils mobiles et devraient être disponibles prochainement. Pour ceux qui ne parlent pas anglais, il est aussi possible de contribuer au projet en produisant des phrases pertinentes ainsi que du code dans GitHub.

Aller plus loin

  • # But à long terme ?

    Posté par  . Évalué à 10.

    Il n’y a aucune malice dans la question, juste de la curiosité.

    C’est un projet qui s’inscrit dans les buts de la fondation Mozilla ou c’est « juste » pour avoir de la reconnaissance vocale libre ? (ce qui serait déja très bien)

    Je vois très bien l’intérêt du vocal pour l’accessibilité du web évidemment, mais la finalité de Mozilla c’est l’intégration dans Firefox, ou la création d’un « Siri » libre ou encore rien de défini ?

    Par ailleurs j’en profite pour poser la question des lecteurs vocaux libres. C’est aussi fondamental pour l’accessibilité du web. On a des retours d’expériences la dessus ? Ça marche bien ?

    • [^] # Re: But à long terme ?

      Posté par  . Évalué à 1.

      Je ne sais pas si les projets sont effectivement liés, mais ils ont aussi lancé ça:
      https://testpilot.firefox.com/experiments/voice-fill

    • [^] # Re: But à long terme ?

      Posté par  . Évalué à 5.

      Bonjour,

      Je donne ici un retour d'expérience sur les (le) lecteurs (lecteur) vocaux (vocal) libres (libre)".

      J'ai accompagné pendant plus de 6 mois un ami aveugle qui avait un logiciel sous windows (je ne me souviens plus le nom) depuis une vingtaine d'années. Il a été victime d'un ransomware qui a crypté toutes ses données: une véritable encyclopédie de témoignages sur l'utilisation des plantes médicinales et de toponymie locale.
      J'ai cherché ce qui pourrait remplacer, en logiciel libre, son logiciel sous windows: j'ai essayé handylixux, puis accessdvlinux.fr, et finalement, selon son expérience a lui, nous sommes convenu d'utiliser une distribution Debian/GNU Linux de base avec Debian Jessie.
      Cela lui convenait, et fonctionnait plutôt bien, bien que Orca ne résistait pas à sa vitesse de saisie au clavier; un petit script et un raccourci clavier lui permettait de le relancer.
      Mais sa difficulté a été la qualité de la voix.
      La seule voix libre, disponible sous Debian, en français, ne lui convenait pas.
      Il s'agit d'une voix de synthèse qui lui fendait les neurones.

      Nous avons donc acheté les voix utilisables sous GNU/Linux, non libres, que nous avons trouvé: Voxin et Kali.
      Il n'a pas, non plus, supporté ces voix. Difficile pour un voyant de juger, moi elles me convenaient!

      Toujours est il qu'il a acheté une machine Apple avec une vraie voix, en français.

      Cela m'a mobilisé plusieurs centaines d'heures pour me familiariser avec ces technologies et accompagner mon ami aveugle. Impossible de lutter avec une entrepise qui utilise toutes les voix des utilisateurs du monde entier traitées dans des algo et dont les résultats économique avoisinent 800 milliards de dollars de capitalisation boursière et plus de 200 milliards de dollars de trésorerie.

      Il y a un énorme travail a réaliser ! Bienvenue à la fondation Mozilla ou a toute autre initiative !

      • [^] # Re: But à long terme ?

        Posté par  . Évalué à 0.

        Bonjour M. BMABMA,

        Tout d'abord je voudrais saluer votre implication pour l'aide que vous avez apporté à votre ami non-voyant.

        Il est très délicat d'accompagner une personne déficiente visuelle dans l'usage de l'informatique libre quand on n'est pas soit-même expérimenté dans l'usage des lecteurs d'écrans et des différentes configurations requises pour un bon fonctionnement d'un environnement GNU/Linux accessible.
        C'est pour cela que la société Hypra existe, à la fois pour proposer un système clé en main accessible à tous, adaptable pour l'utilisateur et simple d'accès, et en proposant un accompagnement (formation, support) pour permettre à tous d'être capable de maîtriser son environnement informatique afin de permettre de gagner en autonomie.

        Il existe désormais les voix Voxygen qui sont de mêmes qualités que celles disponibles sur les systèmes Windows et Mac, comme pour Kali, il faut se rapprocher d'Hypra pour en disposer.

        Cordialement.

        • [^] # Re: But à long terme ?

          Posté par  . Évalué à 1.

          Bonjour alexarnaud,

          Effectivement nous avions contacté Hypra pour acheter la voix Kali; à ce moment là vous ne nous aviez pas proposé Voxygen.
          Orca convenait très bien, la décision de mon ami aveugle n'a été que sur la qualité de la voix.

          Merci pour votre aide.

    • [^] # Re: But à long terme ?

      Posté par  . Évalué à 1.

      Par ailleurs j’en profite pour poser la question des lecteurs vocaux libres. C’est aussi fondamental pour l’accessibilité du web. On a des retours d’expériences la dessus ? Ça marche bien ?

      Bonjour,

      Nous avons à la fois des retours mais surtout des utilisateurs qui utilisent le lecteur d'écran Orca sous système GNU/Linux à la fois dans le cadre personnel que professionnel.

      Les usages sont multiples : lecture de pages web, bureautique, messagerie, messageries instantanées, traitement audio, programmation informatique, etc.

      Je vous écris ce message à l'aide du lecteur d'écran Orca et du logiciel d'agrandissement EZoom depuis Debian :).

      Cordialement.

  • # Sexe

    Posté par  (site web personnel) . Évalué à 10.

    Il est actuellement possible de participer depuis le web, en lisant des phrases en anglais et en indiquant son accent, son âge et son genre pour enrichir la base de données.

    Pas son genre, son sexe. S'agissant de reconnaissance vocale, ce qui importe, ce n'est pas la perception psychologique qu'un individu a de son identité sexuelle, mais les caractéristiques morphologiques qui pourront influer sur sa voix, dont notamment, son sexe.

    • [^] # Re: Sexe

      Posté par  . Évalué à 5.

      Bof. Il y a des mecs entendu à la radios dont j’aurai juré qu’ils étaient des femmes et inversement.

      • [^] # Re: Sexe

        Posté par  (site web personnel) . Évalué à 8.

        Ouais, entre Jeanne Moreau et Frédéric Fromet, y a de quoi se poser questions. :)

        Adhérer à l'April, ça vous tente ?

      • [^] # Re: Sexe

        Posté par  (site web personnel) . Évalué à 9.

        Évidemment, les généralités ne se vérifient pas dans tous les cas. Mais c'est comme pour une étude sur la taille des gens par exemple : on va leur demander s'ils sont nés hommes ou femmes, parce que ça a une influence sur la taille, d'une façon générale. Pas s'ils se sentent hommes ou femmes, parce que ça n'en a aucune, pour le coup. Et le fait que certaines femme soient plus grandes que certaines hommes n'y change rien.

        • [^] # Re: Sexe

          Posté par  . Évalué à 1.

          Comment tu peux à priori exclure qu’il y ait des traductions « physique » chez les transgenre ? Genre que certains transgenre aient eu un développement hormonal différent qui induit des différence dans le timbre de voix - on sait que la taille relative des doigts dépend du taux de testostérone à une période du développement par exemple. Dans ce cas le genre (à supposer qu’il soit corrélé avec certaine caractéristique physiques différente du sexe) pourrait être pertinent. Avec plus d’infos sur le genre différentes à filer à l’algo d’apprentissage, genre peut être que la voie d’une femme transgenre a des caractéristique différentes à la fois de la voix de la voix d’un homme et de la voix d’une femme.

          J’ai aucune idée sur la question, mais je ne l’exclu pas.

        • [^] # Re: Sexe

          Posté par  (site web personnel) . Évalué à 2.

          Évidemment, les généralités ne se vérifient pas

          « L’intersexuation semble concerner de 1 à 2 % des naissances dans l’espèce humaine. »

          Les documents administratifs (CNI en particulier) ne sont pas près de prendre en compte ces différences. Enfin plutôt ce continuum.

          on va leur demander s'ils sont nés hommes ou femmes

          Ils répéterons ce qu'on leur aura appris sur ce qu'il sont censés être, liront leur état civil.

          « Il vaut mieux mobiliser son intelligence sur des conneries que mobiliser sa connerie sur des choses intelligentes. »

          • [^] # Re: Sexe

            Posté par  (site web personnel) . Évalué à 5.

            L'intersexuation serait intéressante à distinguer dans ce genre de travail, parce qu'elle a certainement une influence sur la vois. Mais c'est différent du genre.

            • [^] # Re: Sexe

              Posté par  (site web personnel) . Évalué à 2.

              Mouais, c'est bien différent du genre, mais ça ne rend pas le genre inopérant pour autant. Il me semble que pour être précis, distinguer les deux, genre et sexe, serait intéressant. J'ai en fait dû mal à imaginer comment la manière dont quelqu'un s'identifie socialement, par exemple pour le genre sexuellement, n'influerait pas sur sa voix (timbre, rythme, prosodie, etc). On pourrait aussi mettre sa catégorie socio-professionnelle, je suis presque certain que l'on verrait des distinctions régulières opérer.

      • [^] # Re: Sexe

        Posté par  . Évalué à 1.

        Justement, ça entre en compte dans les stats de l'outil. Si pour 100 femmes 4 ont une voix qu'un assimilerait à celle d'un homme, l'outil saura en tenir compte à long terme (s'il est bien fait). Les apprentissages statistiques savent déceler des choses que les êtres humains ne savent pas faire.

        • [^] # Re: Sexe

          Posté par  . Évalué à 5.

          Sûrement mais, il est censé faire quoi de cette info ? Autant ne rien demander et lui laisser faire des typologie tout seul que lui fournir des infos de classification a priori qui pourraient être contre productive (on sais pas). Enfin cela dit il pourrait les ignorer si ça lui chante.

          • [^] # Re: Sexe

            Posté par  . Évalué à 1.

            Pas faux, en effet. J'imagine que le but est d'arriver à pouvoir proposer 2 types de voix, une voix féminine et une voix masculine.

          • [^] # Re: Sexe

            Posté par  . Évalué à 2.

            Le but est peut-être de justement donner moins de poids aux catégories surreprésentées pour que le logiciel ne pense pas qu'il y a 75% d'hommes par exemple.

      • [^] # Re: Sexe

        Posté par  . Évalué à 3.

        des femmes et inversement.

        Tout à fait, mais ça n'est pas davantage lié au genre pour autant.

        • [^] # Re: Sexe

          Posté par  . Évalué à 1.

          Je n'ai aucun a priori sur la question. En particulier sur le fait que le《genre》, ressenti donc subjectif, se decide sur des bases biologiques (non visibles) ou pas. Il y a concensus sur le fait que le genre soit mieux decide par l'individu, qu'il est different du sexe biologique. Pour autant c'est pas pour ca qu'il ne tire pas racine pour partie dans la biologie de l'individu.

    • [^] # Re: Sexe

      Posté par  . Évalué à 8.

      J'ai hésité sur la traduction de gender, j'ai opté pour genre parce que le choix other est proposé en plus de male et female, sur le coup ça m'a semblé plus cohérent, mais je ne suis pas certain de mon choix.

      Membre de l'april, et vous ? https://april.org/adherer -- Infini, l'internet libre et non commercial : https://infini.fr

      • [^] # Re: Sexe

        Posté par  (site web personnel) . Évalué à 4.

        gender

        Ta traduction est donc bonne, et ce n'est pas ce qui est critiqué par le commentaire.
        Ton choix est donc bon pour la traduction.

  • # mycroft

    Posté par  . Évalué à 2.

    Ce projet se pose en complément, en parallèle ou en plus de ce que fait la partie reconnaissance vocale de mycroft (https://mycroft.ai/ et https://github.com/MycroftAI)?!

    • [^] # Re: mycroft

      Posté par  . Évalué à 2.

      Mycroft c'est un projet complet dont le client est open source, mais on a le choix d'utiliser plusieurs STT (Speak To Text) dont celui de l'API Mycroft, mais cette partie n'est pas open source.

      Ce que propose Mozilla c'est plutôt d'avoir accès à une base de données pour pouvoir travailler à la conception d'un STT soi même :-)
      Ce qui est très intéressant, parce que pour le moment, je n'ai pas trouvé de système de STT libre utilisable offline et qui donne de bons résultats (il y a PocketSphinx mais les résultats sont assez mauvais, à moins que je n'aie pas trouvé comment l'utiliser efficacement)

  • # Pertinence face à Voxforge?

    Posté par  (site web personnel) . Évalué à 10.

    Le projet Voxforge existe depuis de nombreuses années. Il est possible de télécharger librement des modèles acoustiques et des voix. La licence est la GPL. Est-ce la licence qui a empêché Mozilla d'utiliser ces données? Leur F.A.Q. ne parle pas de ces considérations. C'est dommage car il existe déjà des données pour l'anglais sur Voxforge mais le français est toujours incomplet. Il est également possible de contribuer.

    Pour utiliser la reconnaissance vocale en français sous linux, il faut actuellement passer par des solutions propriétaires (par exemple les API google) ou se limiter à un vocabulaire restreint en entraînant son propre modèle. C'est dommage car des projets sympas tels que openjarvis (un assistant personnel) permettent des choses très sympas et utiles avec la reconnaissance vocale.

    https://www.openjarvis.com/content/stt

  • # explications

    Posté par  . Évalué à 3.

    Je n'ai pas bien compris, ce projet vise-t-il le speech-to-text, le text-to-speech ou les deux?

    On va enfin pouvoir essayer yana, s.a.r.ah et co sans dependance envers windobe ni google? :P

    Donation Bitcoin : 1N8QGrhJGWdZNQNSspm3rSGjtXaXv9Ngat

  • # Et les autres langues, le français en particulier ?

    Posté par  (site web personnel) . Évalué à 10.

    Traiter l'anglais, c'est bien mais traiter le français serait encore mieux (du moins pour nous).
    il y a longtemps en 2001, j'avais fait une tentative : http://pjarillon.free.fr/eurolang/cetral-propos.fr.html qui n'a malheureusement pas eu de suite. Seize ans plus tard, le problème est toujours d'actualité.
    Il parait que les langues pivot auxquelles je croyais il y a 16 ans ne sont plus des voies d'avenir mais le fond du problème est inchangé.

    Vers 1990, IBM avait fait un important travail sur la reconnaissance vocale. Les problèmes financiers de l'entreprise ont stoppé net ces travaux. J'avais eu l'occasion vers 2001 de rencontrer un dirigeant d'IBM et je lui ai suggéré de libérer les travaux plutôt que de les enterrer. Quelques mois plus tard, j'ai appris que cela avait été fait.
    Les travaux d'IBM France portaient sur la reconnaissance du français. Mon interlocuteur m'a alors affirmé que la pire des langues vocales à analyser était l'anglais.

    Mozilla ferait sans doute mieux pour commencer a étudier des langages bien articulés comme l'italien, le japonais, le français et le basque. Les chances de succès seraient bien meilleures.

    • [^] # Re: Et les autres langues, le français en particulier ?

      Posté par  . Évalué à 1.

      J'allais le dire ! Perso les autres langues ne m'intéresse pas.

    • [^] # Re: Et les autres langues, le français en particulier ?

      Posté par  . Évalué à 3.

      Mozilla ferait sans doute mieux pour commencer a étudier des langages bien articulés comme l'italien, le japonais, le français et le basque. Les chances de succès seraient bien meilleures.

      Tu as probablement raison sur l'aspect technique, mais je ne pense pas que ce soit ce qui les intéresse le plus: avec l'anglais c'est plus simple de toucher plus de monde, ils ont un potentiel économique et de contributions plus élevé que s'ils prenaient une autre langue.

      À en croire l'article wikipedia que j'ai cité, il n'y aurai pas vraiment de raison de travailler sur une des langues que tu cites. Et la différence dans l'ordre de grandeur des population est non négligeable, aussi.
      Pour qu'un projet aboutisse, il ne faut pas juste réduire la difficulté technique, il faut aussi avoir des utilisateurs, beaucoup de préférence.

    • [^] # Re: Et les autres langues, le français en particulier ?

      Posté par  . Évalué à -5. Dernière modification le 04 août 2017 à 21:26.

      Des langues pivot ??? Kékséksa? Chacun sait depuis Saint Gogol que seul l'anglais est un pivot de droit divin, et qu'autour de ce pivot tourne le monde civilisé, et en particulier la CEE, où l'anglais est langue officielle (très partielle) de Malte (400 000 habitants) et de l'Eire (à peine 4 millions). Rappelons que le latin est la langue officielle du Vatican.

  • # En lien avec voice-fill?

    Posté par  . Évalué à 2.

    C'est probablement en lien avec voice-fill?

    https://testpilot.firefox.com/experiments/voice-fill/

    Voice Fill uses artificial intelligence to interpret speech input. As a participant in the Voice Fill experiment, your voice searches will teach our AI to provide smarter results.

  • # Commentaire supprimé

    Posté par  . Évalué à 0. Dernière modification le 21 août 2017 à 19:37.

    Ce commentaire a été supprimé par l’équipe de modération.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.