Reconnaissance de la parole: HOWTO

Posté par  (site web personnel) . Modéré par Fabien Penso.
Étiquettes :
0
22
avr.
2002
Communauté
Ce document est destiné à un public allant du débutant aux utilisateurs intermédiaires de Linux qui sont intéressés par la reconnaissance de la parole et qui veulent en savoir plus. Il peut être intéressant pour des développeurs qui veulent se faire expliquer les bases de la programmation d'outils de reconnaissance de la parole.

Ce domaine est encore émergeant sous Linux, et l'auteur ne cache pas son désir de motiver les gens pour y participer...
(Disponible en .html, .pdf, .txt, .rtf et source SGML)

Aller plus loin

  • # Etat des lieux ?

    Posté par  . Évalué à 10.

    Il y a deux ans, j'avais un peu joué avec la reconnaissance vocale.

    Si la reconnaissance d'un sujet donné avait l'air au point, le reconnaissance vocale non dépendante du locuteur était pas très fiable.

    Ce qui est dommage, c'est que l'article ne donne pas un état des lieux.
    • [^] # Re: Etat des lieux ?

      Posté par  . Évalué à 10.

      > Si la reconnaissance d'un sujet donné avait l'air au point, le reconnaissance vocale non dépendante du locuteur était pas très fiable

      pour avoir touché un peu au truc, je peux te dire que maintenant elle l'est! D'ailleurs pour info, un acteur français est en train d'emmerger sur le marché. http://www.telisma.com(...) . J'avais été bluffé la première fois que je m'en suis servi.
      • [^] # Re: Etat des lieux ?

        Posté par  . Évalué à 9.

        N'oublie pas de preciser que ce n'est pas libre.
        • [^] # Re: Etat des lieux ?

          Posté par  (site web personnel) . Évalué à 4.

          Pas libre, exactement comme via-voice d'IBM. Souhaitons que de nombreux travaux universitaires enrichissent les projets libres plutôt que de moisir au fond des bilbliothèques universitaires.
      • [^] # Re: Etat des lieux ?

        Posté par  . Évalué à 2.

        Pour être précis, il faudrait définir ce que tu entends par reconnaissance vocale et par fiable. Comme expliqué dans le HOWTO, il y a plein de tâches différentes, avec des difficultés variables et des moyens divers de mesurer la fiabilité. Si on parle de "grand vocabulaire" (disons 65000 mots), d'indépendance du locuteur, et de fiabilité (disons moins de 20% de taux d'erreur de mot [mot inséré, élidé ou changé]), il reste encore à définir plein de choses: Un ou plusieurs locuteurs? Parole lue ou spontanée? Bruitée ou pas? Actuellement les meilleurs systèmes (dont l'un est français, d'un labo CNRS) arrivent à être fiables (20%) sur du grand vocabulaire (65000) pour de la parole type radio/télé (plusieurs locuteurs, mais parole pas vraiment spontanée et peu bruitée) et ceci avec un temps de traitement très long (plusieurs dizaines de fois le temps-réel). Par contre sur des vocabulaires plus restreints, ou dans des conditions plus faciles (un seul locuteur, peu de bruit, etc.), il existe des systèmes fiables en temps réel (ceux de dictée vocale par exemple, qui ont de moins en moins besoin de s'adapter au locuteur). Bref, on regrette en effet un état des lieux, mais les références biblio devraient combler ce manque... DaFrog.
    • [^] # Re: Etat des lieux ?

      Posté par  (site web personnel) . Évalué à 1.

      j'aimerais bien connaitre aussi une liste de logiciels permettant de faire 'parler' son pc. Car a part festival (pas en francais) et mbrola (en francais et autres ) mais pas libre du tout ... j'en ai pas trouver qui soit suffisament intéressant et abouti...
  • # Un peu décevant.

    Posté par  (site web personnel) . Évalué à 9.

    J'attendais mieux de cet article. Pour reconnaitre la parole, il faut franchir les étapes suivantes : - numérisation (facile) - analyse spectrale - reconnaissance des phonèmes - lever de doute lexical - lever de doute grammatical - lever de doute sémantique.(ex: il vole, l'avion ou le voleur ?) Toutes ces étapes sont fort complexes et c'est un domaine où presque tout reste à faire. Il serait en particulier souhaitable de travailler à la création de dictionnaires libres de définitions et de traduction conformes à la RFC2229 - A Dictionary Server Protocol. http://www.dict.org/rfc2229.txt Après cela des grammairiens pourraient contribuer efficacement. Il n'est pas normal que cette spécialité reste l'apanage des solutions propriétaires. En effet, lorsque je parlerai de mon Pentium 4 à mon petit-fils dans 15 ans, il en aura 17 et me dira : "Ah! un ordinateur qui ne comprenait même pas ce qu'on lui disait"...
    • [^] # Re: Un peu décevant.

      Posté par  . Évalué à 2.

      Quelques remarques: Il n'est pas nécessaire de franchir toutes ces étapes pour "reconnaître la parole", en tout cas au sens de ce HOWTO: par exemple il n'est pas nécessaire de lever les doutes grammaticaux et sémantiques pour transcrire automatiquement de la parole (cf. les systèmes statistiques dont parle le HOWTO). Pour ce qui est de comprendre la parole, c'est peut-être un autre problème, mais il est à noter que des systèmes de dialogue fonctionnent très bien sans avoir un sens aigü de la grammaire! (ils ont juste une grammaire et un vocabulaire plus réduits que les notres). Moralité, on peut facilement parler à son ordinateur, cf. les commandes vocales désormais incluses dans KDE... Sur le problèmes des ressources libres, il y a certes un effort important à faire, mais on peut constater que les choses bougent et que la France n'est pas si nulle que ça (voir les travaux de l'AUPELF/UREF) pour ratrapper son retard sur les US. Le dictionnaire Hachette/AUPELF http://www.francophonie.hachette-livre.fr/ n'est pas libre mais pourrait le devenir... Les projets de l'ARTFL fournissent grammaire et dictionnaire sur le web. Bref, on n'est pas si loin que ça d'une situation pas si mal que ça... DaFrog.
  • # Francais

    Posté par  . Évalué à 5.

    Je pourrais envisager apres avoir contacter les instances de le traduire en Francais ! qu'en pensez vous ? merci
    • [^] # Re: Francais

      Posté par  (site web personnel) . Évalué à 1.

      Ce HOWTO est rattaché au LDP http://www.tldp.org/HOWTO/Speech-Recognition-HOWTO/index.html et ne semble pas encore être traduit en français http://www.traduc.org/HOWTO/etat.html donc si tu es intéressé, il te suffit de contacter traduc@traduc.org.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.