Journal La transcription vocale naturelle.

Posté par .
20
6
mar.
2012

Pour m'aider a rédiger les documentations nécessaires à mon travail, j'ai acheté Dragon version home. Comme je travaille aussi sous le Linux le je me demandais où en été la reconnaissance vocale sur notre système préféré. J'ouvre donc ce journal pour essayer de réunir toutes les informations sur la reconnaissance vocale disponible sous Linux.

Merci d'avance de votre aide.

Voici ce que j'ai déjà collecté :

1 - "CMU_Sphinx" Librairie utilisé par exemple Perlbox
2 - "gnome-voice-control" Contrôler l'environnement GNOME par la voix.
3 - "Perlbox" Contrôler l'environnement KDE par la voix. Basé sur Sphinx.
4 - "Simon" Contrôler d'applications comme (firefox, rhythmbox, …) Disponible http://sourceforge.net/projects/speech2text/

Je n'ai pas trouvé de logiciel qui transforme votre langage naturel en texte aussi efficace. Pourtant avec la puissance que possèdent nos ordinateurs aujourd'hui ceci est devenu tout à fait possible et malgré la lourdeur d'un système comme Windows 7 on voit bien que le logiciel Comme "Dragon Naturally Speaking" y arrive parfaitement de façon plutôt bluffant.

A+

  • # un pouce

    Posté par . Évalué à  6 . Dernière modification : le 06/03/12 à 10:48

    Bof, la situation n'a pas bougée d'un pouce, pas d'un seul. En 2002 j'écrivais déjà des emails depuis la cuisine, avec une musique de fond, en parlant à ViaVoice. Et cela fonctionnait très bien. Tout comme le lancement de commandes, tel que "lis moi mes mails". Ça a l'air con dis comme ça ;) mais en fait je suis bien d'accord avec ton journal : c'est très pratique, réellement, lorsque le contexte le permet. Donc même sur Windows, la situation n'a pas vraiment évoluée : c'était déjà fonctionnel il y a bien longtemps. (à l'époque Dragon se vantait, par rapport à ViaVoice, de pouvoir être opérationnel sans besoin d'apprentissage. Mais il était très nettement moins efficace, entre autre sur la correction selon le contexte, pour fr. Il a dû devenir nettement meilleur sur ce point depuis j'imagine). Note amusante : ViaVoice avait besoin d'une partition dédiée, en fat (ne fonctionnant pas sur ntfs à ce moment là)
    (à peine plus tard, vers 2003, il était possible de télécharger un gros morceau du code de ViaVoice sur un site de IBM)

    Pour Linux, le projet qui me semblait le plus intéressant est "les bases vocales", que l'on trouve sur le projet Sphinx. Car c'est peut être là que le bas blesse ???

    • [^] # Moinssez moi je vais faire le malin.

      Posté par . Évalué à  10 .

      Le bas blesse peut être à cause du silicone qui irrite parfois un peu le haut des cuisses,
      rien ne vaut un bon porte-jarretelle (dont je n'ai pas vérifié l'orthographe).

      Sinon le bât blesse parfois.

      Et enfin je n'ai bien entendu rien de pertinent à ajouter à ton commentaire
      car j'ignore tout de la reconnaissance vocale.

      La gent féminine, pas la "gente", pas de "e" ! La gent féminine !

    • [^] # Re: un pouce

      Posté par . Évalué à  7 .

      Viavoice a été vendu par IBM a nuance http://www-01.ibm.com/software/pervasive/viavoice.html en 2003.

      Et sur le site de nuance: http://www.nuance.com/for-business/by-solution/speech-recognition/index.htm

      Pour moi ça ressemble fort à une récupération d'IBM viavoice par Dragon … ce qui expliquerait peut-être pourquoi dragon marche vachement mieux :o)

      my 2 cents,
      Éric

      • [^] # Re: un pouce

        Posté par . Évalué à  3 .

        Excellent, ça explique pourquoi il était subitement impossible de retrouver les liens vers ce qui était dispo en ligne.

  • # Ça m'intéresse aussi

    Posté par (page perso) . Évalué à  3 .

    Pour un intérêt de domotique cela m'intéresse aussi. Je ne me suis pas encore trop penché sur la question par manque de temps, j'en suis resté à ça :
    http://www.csquad.org/2009/10/27/reconnaissance-vocale-avec-julius/

    Comme dit plus haut, tout les logiciels dont tu parles existent depuis longtemps mais il n'y a rien qui me semble sortir du lot, que ce soit pour son côté efficacité ou utilisabilité (doc, scripts…)

  • # mes notes

    Posté par (page perso) . Évalué à  3 .

    bon, je n'y ai pas trop retouché depuis 2008, mais j'avais pris des notes sur la reconnaissance de la parole ici :
    http://cookerspot.tuxfamily.org/wikka.php?wakka=ReconnaissanceVocale
    et http://wiki.eagle-usb.org/wakka.php?wiki=ReconnaissanceVocale

    sinon tu as les tags reconnaissance_vocale et reconnaissance_parole

    Julius / Julian fonctionnait à peu près correctement, sauf que mon micro n'avait pas une qualité au top (celui de mon portable).
    Puis bon, tu me donnes envie de m'y remettre là :D

    • [^] # Re: mes notes

      Posté par (page perso) . Évalué à  4 .

      J'avais regardé et testé les solutions sous Linux de reconnaissances vocale l'an passé. Le projet qui m'avait alors paru le plus développé était CMU Sphinx. Si vous souhaitez l'installer et le configurer, une "recette de cuisine" est disponible dans le lien ci dessous:
      http://code.google.com/p/voicecmdr/wiki/VoiceRecognitionFR

      Un regret pour ce projet: c'est un projet universitaire qui a du mal à sortir de son but de recherche à mon avis. C'est à dire qu'il ne souhaitent pas mettre à disposition CMU Sphinx sous forme immédiatement utilisable ou avec une interface graphique.

      Un autre frein à son utilisation est pour l'instant qu'il est conçus pour la reconnaissance à partir de "grammaire*" contenant un ensemble de mot restreint.

      Bref, pour moi, il y a un lourd travail d'adaptation du projet au grand public à faire avant de voir ce projet devenir une "référence" du monde du libre. Ce sujet reviens régulièrement sur le forum du site, mais n'est pas à l'ordre du jour.

      *grammaire ou grammar est un fichier décrivant les expressions qui doivent être reconnues par le programme: les composants de la phrase.

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.