Cette annonce est intéressante car elle montre (encore) le support d'IBM à la communauté Open Source. Mais cette dernière n'a pas attendu IBM pour développer ses propres outils de reconnaissance vocale. Ainsi, le Speech Recognition HOWTO donne une liste assez longue de logiciels libres dans le domaine, parmi lesquels CVoiceControl, qualifié d'utilisable par l'utilisateur final (mais qui n'est plus supporté par son auteur original). Sinon, il y a aussi Speaker (un plug-in pour Konqueror), AVSR d'Intel (qui semble libre), OpenMind Speech, The Open-Source Speech Recognition Initiative et CMU Sphinx
- Article de USA Today sur le partenariat Honda - IBM pour la reconnaissance vocale embarquée : http://www.usatoday.com/tech/news/techinnovations/2004-09-03-car-voicerec_x.htm?POE=TECISVA
- Speech Recognition Howto : http://www.tldp.org/HOWTO/Speech-Recognition-HOWTO/index.html
- CVoiceControl : http://www.kiecza.net/daniel/linux/index.html
- Speaker : http://dogma.freebsd-uk.eu.org/~grrussel/speaker.html
- AVSR : http://www.intel.com/labs/features/sw04034.htm et http://sourceforge.net/projects/opencvlibrary
- OpenMind Speech : http://freespeech.sourceforge.net/FreeSpeech/html/
- The Open-Source Speech Recognition Initiative : http://www.ossri.org/
- CMU Sphinx : http://cmusphinx.sourceforge.net/html/cmusphinx.php
Quelqu'un a essayé (un de) ces logiciels ?
Aller plus loin
- L'article de News.com / New-York Times (24 clics)
- La nouvelle sur Slashdot (20 clics)
# Commercial ?
Posté par gaston1024 . Évalué à -9.
Réflechissons :
Prix d'un ordinateur complet jusqu'à maintenant : 1000 euros
Prix d'un ordinateur complet à partir de maintenant : 1000 euros
Sauf que, le clavier en moins, c'est au moins 8 euros (!!!) de bénef en plus pour IBM...
[^] # Re: Commercial ?
Posté par reno . Évalué à 2.
[^] # Re: Commercial ?
Posté par gaston1024 . Évalué à -3.
[^] # Re: Commercial ?
Posté par jmfayard . Évalué à 10.
Maintenant on fait de la reconnaissance multi-modale.
C'est quoi ça ? Par exemple, avec une caméra, on lit sur les lèvres de celui qui est en train de parler, et on recoupe les résultats avec ce qui vient du micro.
Pourquoi faire ça ? Parce que c'est ce que l'être humain fait. Pas seulement les sourds qui savent parfaitement lire sur les lèvres. Non tout le monde inconsciemment lit sur les lèvres. Il y a une expérience célèbre qui prouve celà : on filme en gros plan quelqu'un disant lentement et articulant exagérément "BA DA GA JA PA LA". On enlève la bande son. On l'enregistre dire de la même manière "BA BA BA BA BA BA", et on synchronise cette bande son avec le film. Maintenant on demande à des gens de bien regarder la vidéo et de noter ce qu'ils ont entendus. Presque tout le monde se trompe.
C'est utilisé en pratique et ça marche ? Oui, ça baisse le taux d'erreur de notre reconnaisseur, et ce d'autant plus que la pièce est pleine de bruits parasites. Comme quand on est en boîte, on arrive beaucoup mieux à comprendre ce qu'on nous dit. (Et oui ! encore une fois, vous savez lire sur les lèvres !)
[^] # Re: Commercial ?
Posté par Tutur . Évalué à 4.
[^] # Re: Commercial ?
Posté par imr . Évalué à 4.
[-50]
[^] # Re: Commercial ?
Posté par morfal . Évalué à 5.
C'est donc pour ça que je ne comprends rien à ce qu'ils racontent à la radio...
;-)
M
[^] # Re: Commercial ?
Posté par ArBaDaCarBa . Évalué à 5.
Surtout pour rentrer les mots de passe...
[^] # Re: Commercial ?
Posté par nextgens (site web personnel) . Évalué à 2.
http://cscience.org/~lucasvr/projects/voiceauth.php(...)
ChezMoiCaMarche(TM)
PS: j'avoue ne l'utiliser que pour wdm ... histoire que le jour où je serai malade, je puisse me logger... ;-)
[^] # Re: Commercial ?
Posté par ArBaDaCarBa . Évalué à 1.
Merci pour le lien, tout de même. C'est un projet intéressant...
[^] # Re: Commercial ?
Posté par ナイコ (site web personnel) . Évalué à 1.
[^] # Re: Commercial ?
Posté par jigso . Évalué à 1.
Il faut chuchoter...
chut, je sors sur la pointe des pieds ----> []
[]-> Je reviens pour une question à 2 balles : il vont faire comment les gens qui ont un sseveux sur la langue, il y aura des versions spéciales ?
[^] # Re: Commercial ?
Posté par Jean Parpaillon (site web personnel) . Évalué à 0.
"Liberté, Sécurité et Responsabilité sont les trois pointes d'un impossible triangle" Isabelle Autissier
[^] # Re: Commercial ?
Posté par Jerome Alet (site web personnel) . Évalué à 2.
J'en ai acheté un neuf en 1994 qui fonctionne encore parfaitement, mais le coût d'un tel clavier était cependant assez loin des 8 Euros mentionnés dans le premier post, si je me souviens bien c'était environ 1200 Francs à l'époque où je l'ai acheté.
Il est largement amorti depuis !
[^] # Re: Commercial ?
Posté par nextgens (site web personnel) . Évalué à 2.
Le prix du clavier ou la chute effreinée de tes doigts sur celui-ci?
--------------------------------[Fenêtre]>Elle est amortie ma chute aussi?
[^] # Re: Commercial ?
Posté par cho7 (site web personnel) . Évalué à 10.
Après pour le reste on s'en tappe, moi je dis vive ibm, une des seules marques que j'apprécie encore.
[^] # Re: Commercial ?
Posté par Stéphane Traumat (site web personnel) . Évalué à 3.
Alors oui, vive ibm, merci pour eclipse
http://about.me/straumat
[^] # Re: Commercial ?
Posté par hachesse . Évalué à 2.
Sinon, pour avoir un peu tester les solutions OpenSource de reconnaissance vocale, je dois dir que c'est tres decevant. Aucune d'entre elle n'est capable de revaliser avec les solutions commerciales tel que Dragon Naturally Speaking ou Philips Speech Magiq (et son joli Speech Mike).
Et pourtant la reconnaissance vocale est tres utilisée dans le metier ciblé par mon entreprise (milieux medical - utilisé par les medecin pour la dictée de compte rendu d'examen)
[^] # Re: Commercial ?
Posté par thedidouille . Évalué à -2.
C'est apres avoir lu un de leur tutorial de merde en premiere page, ici, que je leur ai donne mon adresse.
Si c'est ça le buziness Open Source ...
[^] # Re: Commercial ?
Posté par Stéphane Traumat (site web personnel) . Évalué à 1.
L'optique d'ibm est simple, quand un produit devient plus rentable -> libre comme avec cloudscape
http://about.me/straumat
[^] # Re: Commercial ?
Posté par Alexandre Beraud . Évalué à 1.
[^] # Re: Commercial ?
Posté par Aurélien Bompard (site web personnel) . Évalué à 1.
Hmm, oui, faut pas être trop manichéen non plus, hein. IBM fait de très bonnes choses, et de très mauvaises aussi. Ils sont quand même n°1 du brevet logiciel, faut pas l'oublier.
[^] # Re: Commercial ?
Posté par Stéphane Traumat (site web personnel) . Évalué à 5.
Imagine... Tu es une très grosse boite dans un très grand pays où les brevets logiciels sont en vigueur. Tu développers tu matos, des softs, des processeurs....
Maintenant, comment te protèges tu de ces saloperies de brevets logiciels ?
Comment fais tu pour éviter de que des centaines de PME t'attaquent pour des conneries ? ( barre de défilement, horloge, clic de souris... )
Beh la meilleure défense pour IBM, c'est peut être de déposer des brevets.
Si ils ont ces brevets pour se protéger ok. Pour le moment, je n'ai pas vu de reproches sur l'utlisation qu'ils ont fait des brevets logiciels.. donc j'attends qu'on me prouve qu'ils se comportent mal.
Etant partisant de la présumé innocence, je leur laisse le bénéfice du doute et je suppose qu'ils se servent des brevets comme d'une défense, maintenant, si on me prouve le contraire, je suis pret à changer d'avis
http://about.me/straumat
[^] # Re: Commercial ?
Posté par Maxx . Évalué à 6.
Etant partisant de la présumé innocence, je leur laisse le bénéfice du doute et je suppose qu'ils se servent des brevets comme d'une défense, maintenant, si on me prouve le contraire, je suis pret à changer d'avis
Oui puisque ce sont même eux qui demandent aux autres entreprises possédent des brevets "utilisés" dans Lin... pardon GNU/Linux, de ne pas les utiliser pour attaquer le système libre.
http://linuxfr.org/2004/08/02/16957.html(...) (DLFP: Le noyau Linux violerait 283 brevets)
http://linuxfr.org/2004/08/07/17002.html(...) (DLFP: IBM n'a pas l'intention de faire appliquer ses brevets dans le noyau Linux)
[^] # Re: Commercial ?
Posté par Philippe F (site web personnel) . Évalué à 3.
Maintenant, IBM, il ne faut pas se faire d'illusions. Ils ont des brevets parce que c'est une facon de gagner de l'argent et parce qu'ils font beaucoup de recherche. Et ils les utilisent quand ils en ont envie. Et ce n'est pas necessairement des tendres, meme si leur strategie open source rechauffe le coeur.
J'avais lu un article d'un mec de Sun qui disait que 5 avocats d'IBM etaient venus lui reclamer des royalties sur des brevets IBM. Il a passe deux semaines de recherche pour montrer que les brevets etaient invalides et il a expose ca aux avocats d'IBM. Ceux ci restes tranquilles et lui ont repondu: "Ok, on revient dans une semaine avec 10 autres brevets de notre portefeuille. Vous voulez vraiment qu'on reviennent toutes les semaines ?". Finalement, les mecs de Sun ont voulu payer.
[^] # Re: Commercial ?
Posté par Stéphane Traumat (site web personnel) . Évalué à 1.
http://about.me/straumat
# Euh vous en oubliez un de taille
Posté par jmfayard . Évalué à 10.
http://research.sun.com/speech/(...)
[1] Ben oui, à l'heure actuelle, la reconnaissance vocale reste du domaine de la recherche, donc au lieu de construire un reconnaisseur, on propose un toolkit permettant d'écrire rapidement un reconnaisseur pour pouvoir expérimenter des nouvelles idées.
Dans la description des logiciels, il y a :
Sphinx-4: An open source speech recognition system written entirely in the JavaTM programming language. Sphinx-4 is a speaker independent, large vocabulary, continuous speech recognition system based on the Sphinx family of speech recognizers developed at Carnegie-Mellon University. The Sphinx-4 project is hosted at cmusphinx.sourceforge.net.
Si on décrypte la phrase ci-dessus, c'est un projet ambitieux car :
- le faire indépendant de la personne qui parle est très difficile, il faut faire de la normalisation dans un sens puis de l'adaptation dans l'autre sens. On peut notemment utiliser les coefficiants spectraux pour ça
- le faire sur un large vocabulaire c'est très compliqué. A l'heure actuelle, on a des bons résultats quand le vocabulaire est limité à un thème (par exemple "A l'hotel"), mais là ça reste une gageure
- le faire en continu, ça impose des contraintes temps réelles importantes, contradictoires avec le problème précédent et s'Ils font ça en java, donc ils ont du mérite
FreeTTS: An open source speech synthesizer written entirely in the JavaTM programming language. The synthesizer is available at freetts.sourceforge.net. To learn about how FreeTTS performs read the FreeTTS - A Performance Case Study technical report.
JavaTM Speech API: The Speech Integration Group led the development of the Java Speech API in cooperation with Sun's Java Software division and external partners. The Speech Integration Group developed and published the following specifications and documents:
[^] # Et un autre
Posté par jmfayard . Évalué à 1.
Le site (Interactive Systems Labs) : http://isl.ira.uka.de(...)
[^] # Re: Et un autre
Posté par Pierre Jarillon (site web personnel) . Évalué à 8.
Il fut une époque où les universités ne voulaient pas entendre parler d'industrie, c'était très mal vu. L'université servait à former des chercheurs et des enseignants qui avaient pour mission de former des chercheurs et des enseignants et ainsi de suite. C'est ce système qui a décrédibilisé l'Université aux yeux des entreprises et elles se sont tournées vers les écoles d'ingénieur. Ce phénomène est essentiellement français.
Il y a environ 35 ans, l'Université a décidé sous la pression des politiques de se rapprocher des entreprises. C'est ainsi que Chaban-Delmas a demandé au directeur de la Sereb (Le maître d'oeuvre de la fusée Diamant) d'accueillir un thésard. Et c'est par le hasard de mon parcours universitaire que j'en ai bénéficié et cela a duré 33 ans et 3 mois.
Depuis cette époque, les choses en changé à l'excès. Certaines entreprises ont trouvé à l'Université de la matière grise à un prix abordable et les universités ont trouvé un moyen de financer leurs laboratoires sans se rendre compte qu'elles avaient vendu leur âme au diable.
Un excès dans un sens vient souvent après un excès dans le sens opposé. Espérons que le point d'équilibre soit rapidement trouvé car la privatisation du travail universitaire n'est pas dans sa tradition universitaire du partage de la connaissance et n'est pas faite pour le bien de la collectivité.
Ce qui se passe maintenant, c'est que la recherche en reconnaissance de la parole coûte trop cher aux entreprises. Le fait de reverser leurs travaux vers la communauté du Logiciel Libre leur permet de bénéficier de produits performants sans avoir à en supporter tout le coût de développement.
Serait-ce un juste retour ?
[^] # Re: Et un autre
Posté par Alexandre Beraud . Évalué à 1.
[^] # Re: Et un autre
Posté par Nicolas Boulay (site web personnel) . Évalué à 1.
"La première sécurité est la liberté"
# Brevets
Posté par Antoine . Évalué à 1.
# cmu sphinx
Posté par Johann Deneux . Évalué à 3.
# Coïncidence...
Posté par Pierre Jarillon (site web personnel) . Évalué à 10.
Je leur ai parlé de Via-Voice, le logiciel de reconnaissance vocale le plus abouti. J'avais lu, il y a une trentaine d'années un article époustouflant sur les techniques utilisées et l'état des recherches dans leurs labos. Malgré l'énormité des sommes engagées il faut encore en dépenser beaucoup plus pour arriver à un bon résultat. Comme ce n'est pas très rentable, IBM a suspendu les recherches.
Ils m'ont confirmé que Via-Voice ne se vendait plus. Je leur ai alors demandé pourquoi ces travaux ne seraient pas versés dans la communauté du logiciel libre afin de ne pas être perdus et que IBM y gagnerait en image de marque.
Les deux personnes que j'ai rencontré m'ont dit que cette idée leur plaisait beaucoup, qu'elle était très pertinente et qu'ils la remonteraient à leur direction (dont ils ne me paraissaient pas très éloignés).
Ce n'est qu'une partie de Via-Voice qui a été libérée, mais c'est à mon avis une partie très importante.
La question que je me pose maintenant est de savoir si mon intervention à l'UEC d'Hourtin et cette décision sont liées ou si c'est pure coïncidence. Je ne le saurai sans doute jamais, et cela n'a aucune importance.
Notre force est notre nombre et notre persévérance. Ne perdons jamais une occasion de faire avancer le Logiciel Libre. Parfois une action modeste peut entrainer de grandes choses sans même que nous ne le sachions.
# Reconnaissance d'ecriture
Posté par alphaman . Évalué à 1.
[^] # Re: Reconnaissance d'ecriture
Posté par detail_pratique . Évalué à 1.
http://jocr.sourceforge.net/(...)
Il ne faut pas trop lui en demander mais sur du texte non formaté, il fonctionne assez bien.
[^] # Re: Reconnaissance d'ecriture
Posté par detail_pratique . Évalué à 1.
ça y est je ne sais plus lire.
A part les machins sur les PDA...
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.