Liens connexes

Dépêche modérée par

Dépêche éditée par

: IBM dope la reconnaissance vocale Open Source

Posté par jepoirrier (). Modéré le 13 septembre 2004.
0
IBM a annoncé qu'il allait donner à la Fondation Apache une collection de logiciels de reconnaissance de la parole (dont le coût de développement est estimé à 10 millions de USD). Ne vous attendez pas à avoir (de nouveau) ViaVoice sous GNU/Linux : ces logiciels ne manipuleront que des mots, dates, heures et endroits (villes, états, ...). De plus, IBM va également donner des outils d'édition de la parole à la Fondation Eclipse, un groupe open source qu'il a créé.

> Lire la suite (37 commentaires, moyenne: 2,9).   [dépêche : 2273 caractères]

Il semble que cela s'inscrive dans un nouvel engouement pour la reconnaissance vocale de la part de sociétés commerciales, Microsoft ayant sorti son Speech Server 2004 en mars, IBM multipliant les partenariats avec les développeurs de call-center et d'électronique embarquée pour voitures.

Cette annonce est intéressante car elle montre (encore) le support d'IBM à la communauté Open Source. Mais cette dernière n'a pas attendu IBM pour développer ses propres outils de reconnaissance vocale. Ainsi, le Speech Recognition HOWTO donne une liste assez longue de logiciels libres dans le domaine, parmi lesquels CVoiceControl, qualifié d'utilisable par l'utilisateur final (mais qui n'est plus supporté par son auteur original). Sinon, il y a aussi Speaker (un plug-in pour Konqueror), AVSR d'Intel (qui semble libre), OpenMind Speech, The Open-Source Speech Recognition Initiative et CMU Sphinx

- Article de USA Today sur le partenariat Honda - IBM pour la reconnaissance vocale embarquée : http://www.usatoday.com/tech/news/techinnovations/2004-09-03-car-voicerec_x.htm?POE=TECISVA
- Speech Recognition Howto : http://www.tldp.org/HOWTO/Speech-Recognition-HOWTO/index.html
- CVoiceControl : http://www.kiecza.net/daniel/linux/index.html
- Speaker : http://dogma.freebsd-uk.eu.org/~grrussel/speaker.html
- AVSR : http://www.intel.com/labs/features/sw04034.htm et http://sourceforge.net/projects/opencvlibrary
- OpenMind Speech : http://freespeech.sourceforge.net/FreeSpeech/html/
- The Open-Source Speech Recognition Initiative : http://www.ossri.org/
- CMU Sphinx : http://cmusphinx.sourceforge.net/html/cmusphinx.php

Quelqu'un a essayé (un de) ces logiciels ?

Cette discussion est archivée, il n'est plus possible de laisser des commentaires.

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.

[+] Commercial ?

Posté par Sylvain Picard () le 13/09/2004 à 15:42. (lien). Évalué à -9.

Croyez vous à la philanthropie d'IBM... Pouah ! Ce n'est qu'un but commercial.
Réflechissons :
Prix d'un ordinateur complet jusqu'à maintenant : 1000 euros
Prix d'un ordinateur complet à partir de maintenant : 1000 euros

Sauf que, le clavier en moins, c'est au moins 8 euros (!!!) de bénef en plus pour IBM...

Euh vous en oubliez un de taille

Posté par jmfayard () le 13/09/2004 à 17:06. (lien). Évalué à 17.

Sun a mis en libre son toolkit[1] de reconnaissance vocale
http://research.sun.com/speech/(...)

[1] Ben oui, à l'heure actuelle, la reconnaissance vocale reste du domaine de la recherche, donc au lieu de construire un reconnaisseur, on propose un toolkit permettant d'écrire rapidement un reconnaisseur pour pouvoir expérimenter des nouvelles idées.

Dans la description des logiciels, il y a :

Sphinx-4: An open source speech recognition system written entirely in the JavaTM programming language. Sphinx-4 is a speaker independent, large vocabulary, continuous speech recognition system based on the Sphinx family of speech recognizers developed at Carnegie-Mellon University. The Sphinx-4 project is hosted at cmusphinx.sourceforge.net.

Si on décrypte la phrase ci-dessus, c'est un projet ambitieux car :
- le faire indépendant de la personne qui parle est très difficile, il faut faire de la normalisation dans un sens puis de l'adaptation dans l'autre sens. On peut notemment utiliser les coefficiants spectraux pour ça
- le faire sur un large vocabulaire c'est très compliqué. A l'heure actuelle, on a des bons résultats quand le vocabulaire est limité à un thème (par exemple "A l'hotel"), mais là ça reste une gageure
- le faire en continu, ça impose des contraintes temps réelles importantes, contradictoires avec le problème précédent et s'Ils font ça en java, donc ils ont du mérite

FreeTTS: An open source speech synthesizer written entirely in the JavaTM programming language. The synthesizer is available at freetts.sourceforge.net. To learn about how FreeTTS performs read the FreeTTS - A Performance Case Study technical report.

JavaTM Speech API: The Speech Integration Group led the development of the Java Speech API in cooperation with Sun's Java Software division and external partners. The Speech Integration Group developed and published the following specifications and documents:

Brevets

Posté par Antoine () le 13/09/2004 à 20:00. (lien). Évalué à 1.

Sachant qu'IBM est un des plus gros détenteurs de brevets au monde, j'aimerais bien savoir combien de brevets ils ont déposés sur ce code soi-disant "libre"...

cmu sphinx

Posté par Johann Deneux (page perso, ) le 13/09/2004 à 20:10. (lien). Évalué à 3.

J'ai utilise cmu sphinx pour commander un jeu par la parole (America's Army). Le but etait d'indiquer la position de joueurs ennemis. Ca marchait bien, mais c'est vrai qu'il faut restreindre le vocabulaire. Si deux mots se ressemblent, les chances que le soft se trompe sont grandes. Il vaut mieux eviter de rigoler et tousser, le soft a tendance a "reconnaitre" ca comme etant des mots. Je pense bien integrer ce systeme dans mon clone d'ArmyOps :)

Coïncidence...

Posté par Pierre Jarillon (page perso, ) le 13/09/2004 à 20:25. (lien). Évalué à 11.

Il y a une quinzaine de jour, j'ai pu voir le stand IBM à Hourtin. Il sentait très fortement le manchot. Un énoooooorme Tux en peluche de plus d'un mètre de haut en était la décoration la plus visible. Le personnel avait des chemises noires ornées d'un Tux sur la pochette et les personnes présentes m'ont confirmé que IBM avait résolument pris la voie du Logiciel Libre.

Je leur ai parlé de Via-Voice, le logiciel de reconnaissance vocale le plus abouti. J'avais lu, il y a une trentaine d'années un article époustouflant sur les techniques utilisées et l'état des recherches dans leurs labos. Malgré l'énormité des sommes engagées il faut encore en dépenser beaucoup plus pour arriver à un bon résultat. Comme ce n'est pas très rentable, IBM a suspendu les recherches.
Ils m'ont confirmé que Via-Voice ne se vendait plus. Je leur ai alors demandé pourquoi ces travaux ne seraient pas versés dans la communauté du logiciel libre afin de ne pas être perdus et que IBM y gagnerait en image de marque.
Les deux personnes que j'ai rencontré m'ont dit que cette idée leur plaisait beaucoup, qu'elle était très pertinente et qu'ils la remonteraient à leur direction (dont ils ne me paraissaient pas très éloignés).

Ce n'est qu'une partie de Via-Voice qui a été libérée, mais c'est à mon avis une partie très importante.
La question que je me pose maintenant est de savoir si mon intervention à l'UEC d'Hourtin et cette décision sont liées ou si c'est pure coïncidence. Je ne le saurai sans doute jamais, et cela n'a aucune importance.
Notre force est notre nombre et notre persévérance. Ne perdons jamais une occasion de faire avancer le Logiciel Libre. Parfois une action modeste peut entrainer de grandes choses sans même que nous ne le sachions.

Reconnaissance d'ecriture

Posté par alphaman () le 14/09/2004 à 08:54. (lien). Évalué à 1.

Bonjour, en parlant de la reconnaissance vocale, je voudrais savoir s'il existe un logiciel de reconnaissance d'écriture en Gpl?

Revenir en haut de page