IBM dope la reconnaissance vocale Open Source

Posté par . Modéré par jerome.
0
13
sept.
2004
Audiovisuel
IBM a annoncé qu'il allait donner à la Fondation Apache une collection de logiciels de reconnaissance de la parole (dont le coût de développement est estimé à 10 millions de USD). Ne vous attendez pas à avoir (de nouveau) ViaVoice sous GNU/Linux : ces logiciels ne manipuleront que des mots, dates, heures et endroits (villes, états, ...). De plus, IBM va également donner des outils d'édition de la parole à la Fondation Eclipse, un groupe open source qu'il a créé. Il semble que cela s'inscrive dans un nouvel engouement pour la reconnaissance vocale de la part de sociétés commerciales, Microsoft ayant sorti son Speech Server 2004 en mars, IBM multipliant les partenariats avec les développeurs de call-center et d'électronique embarquée pour voitures.

Cette annonce est intéressante car elle montre (encore) le support d'IBM à la communauté Open Source. Mais cette dernière n'a pas attendu IBM pour développer ses propres outils de reconnaissance vocale. Ainsi, le Speech Recognition HOWTO donne une liste assez longue de logiciels libres dans le domaine, parmi lesquels CVoiceControl, qualifié d'utilisable par l'utilisateur final (mais qui n'est plus supporté par son auteur original). Sinon, il y a aussi Speaker (un plug-in pour Konqueror), AVSR d'Intel (qui semble libre), OpenMind Speech, The Open-Source Speech Recognition Initiative et CMU Sphinx

- Article de USA Today sur le partenariat Honda - IBM pour la reconnaissance vocale embarquée : http://www.usatoday.com/tech/news/techinnovations/2004-09-03-car-voicerec_x.htm?POE=TECISVA
- Speech Recognition Howto : http://www.tldp.org/HOWTO/Speech-Recognition-HOWTO/index.html
- CVoiceControl : http://www.kiecza.net/daniel/linux/index.html
- Speaker : http://dogma.freebsd-uk.eu.org/~grrussel/speaker.html
- AVSR : http://www.intel.com/labs/features/sw04034.htm et http://sourceforge.net/projects/opencvlibrary
- OpenMind Speech : http://freespeech.sourceforge.net/FreeSpeech/html/
- The Open-Source Speech Recognition Initiative : http://www.ossri.org/
- CMU Sphinx : http://cmusphinx.sourceforge.net/html/cmusphinx.php

Quelqu'un a essayé (un de) ces logiciels ?

Aller plus loin

  • # Commercial ?

    Posté par . Évalué à -9.

    Croyez vous à la philanthropie d'IBM... Pouah ! Ce n'est qu'un but commercial.
    Réflechissons :
    Prix d'un ordinateur complet jusqu'à maintenant : 1000 euros
    Prix d'un ordinateur complet à partir de maintenant : 1000 euros

    Sauf que, le clavier en moins, c'est au moins 8 euros (!!!) de bénef en plus pour IBM...
    • [^] # Re: Commercial ?

      Posté par . Évalué à 2.

      Je ne devrais pas repondre a ce troll, mais la reconnaissance vocale n'est pas pres de remplacer un clavier (fiabilite, bordel en open-space), ce qui n'empeche pas qu'elle puisse etre tres,tres utile pour les handicapes, les applications telephoniques, etc.
      • [^] # Re: Commercial ?

        Posté par . Évalué à -3.

        boah... c'est pas un troll, c'est juste du mauvais humour pas drôle...
      • [^] # Re: Commercial ?

        Posté par . Évalué à 10.

        Peuh, de toute façon c'est déjà out la reconnaissance vocale.

        Maintenant on fait de la reconnaissance multi-modale.
        C'est quoi ça ? Par exemple, avec une caméra, on lit sur les lèvres de celui qui est en train de parler, et on recoupe les résultats avec ce qui vient du micro.
        Pourquoi faire ça ? Parce que c'est ce que l'être humain fait. Pas seulement les sourds qui savent parfaitement lire sur les lèvres. Non tout le monde inconsciemment lit sur les lèvres. Il y a une expérience célèbre qui prouve celà : on filme en gros plan quelqu'un disant lentement et articulant exagérément "BA DA GA JA PA LA". On enlève la bande son. On l'enregistre dire de la même manière "BA BA BA BA BA BA", et on synchronise cette bande son avec le film. Maintenant on demande à des gens de bien regarder la vidéo et de noter ce qu'ils ont entendus. Presque tout le monde se trompe.
        C'est utilisé en pratique et ça marche ? Oui, ça baisse le taux d'erreur de notre reconnaisseur, et ce d'autant plus que la pièce est pleine de bruits parasites. Comme quand on est en boîte, on arrive beaucoup mieux à comprendre ce qu'on nous dit. (Et oui ! encore une fois, vous savez lire sur les lèvres !)
        • [^] # Re: Commercial ?

          Posté par . Évalué à 4.

          C'est depassé tout cela, maintenant, c'est par la pensé qu'on peux commander l'ordi. Le seul probléme qui empeche la commercialisation, c'est que l'on arrive pas a detecter les parasites créés par le presence dans les parage d'une personne de sexe différent, l'affichage qui en result est assez indiscret. Idem pour la presence du "chef".
        • [^] # Re: Commercial ?

          Posté par . Évalué à 4.

          Et pour mizou-mizou, on fait comment?
          [-50]
        • [^] # Re: Commercial ?

          Posté par . Évalué à 5.

          Non tout le monde inconsciemment lit sur les lèvres.

          C'est donc pour ça que je ne comprends rien à ce qu'ils racontent à la radio...
          ;-)

          M
      • [^] # Re: Commercial ?

        Posté par . Évalué à 5.

        > la reconnaissance vocale n'est pas pres de remplacer un clavier

        Surtout pour rentrer les mots de passe...
        • [^] # Re: Commercial ?

          Posté par (page perso) . Évalué à 2.

          ah bon?

          http://cscience.org/~lucasvr/projects/voiceauth.php(...)

          ChezMoiCaMarche(TM)

          PS: j'avoue ne l'utiliser que pour wdm ... histoire que le jour où je serai malade, je puisse me logger... ;-)
          • [^] # Re: Commercial ?

            Posté par . Évalué à 1.

            Je voulais dire pour la confidentialité du mot de passe ;)
            Merci pour le lien, tout de même. C'est un projet intéressant...
        • [^] # Re: Commercial ?

          Posté par (page perso) . Évalué à 1.

          Surtout si le logiciel de reconnaissance vocale plan
        • [^] # Re: Commercial ?

          Posté par . Évalué à 1.

          Surtout pour rentrer les mots de passe...

          Il faut chuchoter...

          chut, je sors sur la pointe des pieds ----> []

          []-> Je reviens pour une question à 2 balles : il vont faire comment les gens qui ont un sseveux sur la langue, il y aura des versions spéciales ?
    • [^] # Re: Commercial ?

      Posté par (page perso) . Évalué à 0.

      C'est con, ils faisaient des super claviers, IBM !
      • [^] # Re: Commercial ?

        Posté par (page perso) . Évalué à 2.

        Mais ils existent encore : j'en ai un de 1985 sous mes doigts, il est encore bien vivant, et c'est de la récup.

        J'en ai acheté un neuf en 1994 qui fonctionne encore parfaitement, mais le coût d'un tel clavier était cependant assez loin des 8 Euros mentionnés dans le premier post, si je me souviens bien c'était environ 1200 Francs à l'époque où je l'ai acheté.

        Il est largement amorti depuis !
        • [^] # Re: Commercial ?

          Posté par (page perso) . Évalué à 2.

          Il est largement amorti depuis !


          Le prix du clavier ou la chute effreinée de tes doigts sur celui-ci?

          --------------------------------[Fenêtre]>Elle est amortie ma chute aussi?
    • [^] # Re: Commercial ?

      Posté par (page perso) . Évalué à 10.

      Que ce soit commercial ou non, eux ils donnent au moins, c'est pas le cas de tout le monde, et c'est déjà tout à leur honneur.
      Après pour le reste on s'en tappe, moi je dis vive ibm, une des seules marques que j'apprécie encore.
      • [^] # Re: Commercial ?

        Posté par . Évalué à 3.

        Tout a fait d'accord avec toi... mon idée du "business" de l'open source (que j'ai piqué ailleurs), c de découpler la production et la maintenance d'un soft de ses ventes et de sa distribution.

        Alors oui, vive ibm, merci pour eclipse

        http://about.me/straumat

        • [^] # Re: Commercial ?

          Posté par . Évalué à 2.

          Tiens, je vais peut etre le repiquer a mon tour celle définition ;-D


          Sinon, pour avoir un peu tester les solutions OpenSource de reconnaissance vocale, je dois dir que c'est tres decevant. Aucune d'entre elle n'est capable de revaliser avec les solutions commerciales tel que Dragon Naturally Speaking ou Philips Speech Magiq (et son joli Speech Mike).

          Et pourtant la reconnaissance vocale est tres utilisée dans le metier ciblé par mon entreprise (milieux medical - utilisé par les medecin pour la dictée de compte rendu d'examen)
        • [^] # Re: Commercial ?

          Posté par . Évalué à -2.

          Faudrait qu'IBM arrête de m'envoyer des mails expliquant comment passer de MySQL à db2, ça fait 5 fois que je leur demande de ne plus me spamer.

          C'est apres avoir lu un de leur tutorial de merde en premiere page, ici, que je leur ai donne mon adresse.

          Si c'est ça le buziness Open Source ...
          • [^] # Re: Commercial ?

            Posté par . Évalué à 1.

            Ils essaient de vendre leur produit.. c'est normal si tu leur donnes ton adresse.

            L'optique d'ibm est simple, quand un produit devient plus rentable -> libre comme avec cloudscape

            http://about.me/straumat

      • [^] # Re: Commercial ?

        Posté par (page perso) . Évalué à 1.

        > Après pour le reste on s'en tappe, moi je dis vive ibm, une des seules marques que j'apprécie encore.

        Hmm, oui, faut pas être trop manichéen non plus, hein. IBM fait de très bonnes choses, et de très mauvaises aussi. Ils sont quand même n°1 du brevet logiciel, faut pas l'oublier.
        • [^] # Re: Commercial ?

          Posté par . Évalué à 5.

          Question....

          Imagine... Tu es une très grosse boite dans un très grand pays où les brevets logiciels sont en vigueur. Tu développers tu matos, des softs, des processeurs....
          Maintenant, comment te protèges tu de ces saloperies de brevets logiciels ?
          Comment fais tu pour éviter de que des centaines de PME t'attaquent pour des conneries ? ( barre de défilement, horloge, clic de souris... )

          Beh la meilleure défense pour IBM, c'est peut être de déposer des brevets.

          Si ils ont ces brevets pour se protéger ok. Pour le moment, je n'ai pas vu de reproches sur l'utlisation qu'ils ont fait des brevets logiciels.. donc j'attends qu'on me prouve qu'ils se comportent mal.
          Etant partisant de la présumé innocence, je leur laisse le bénéfice du doute et je suppose qu'ils se servent des brevets comme d'une défense, maintenant, si on me prouve le contraire, je suis pret à changer d'avis

          http://about.me/straumat

          • [^] # Re: Commercial ?

            Posté par . Évalué à 6.

            Si ils ont ces brevets pour se protéger ok. Pour le moment, je n'ai pas vu de reproches sur l'utlisation qu'ils ont fait des brevets logiciels.. donc j'attends qu'on me prouve qu'ils se comportent mal.
            Etant partisant de la présumé innocence, je leur laisse le bénéfice du doute et je suppose qu'ils se servent des brevets comme d'une défense, maintenant, si on me prouve le contraire, je suis pret à changer d'avis


            Oui puisque ce sont même eux qui demandent aux autres entreprises possédent des brevets "utilisés" dans Lin... pardon GNU/Linux, de ne pas les utiliser pour attaquer le système libre.

            http://linuxfr.org/2004/08/02/16957.html(...) (DLFP: Le noyau Linux violerait 283 brevets)

            http://linuxfr.org/2004/08/07/17002.html(...) (DLFP: IBM n'a pas l'intention de faire appliquer ses brevets dans le noyau Linux)
          • [^] # Re: Commercial ?

            Posté par (page perso) . Évalué à 3.

            Ce que tu decris, c'est la strategie qu'est obligee d'adopter toute entreprise evoluant dans un milieu de brevet (dont la mienne, on va devoir deposer des brevets logiciels pour se proteger...)

            Maintenant, IBM, il ne faut pas se faire d'illusions. Ils ont des brevets parce que c'est une facon de gagner de l'argent et parce qu'ils font beaucoup de recherche. Et ils les utilisent quand ils en ont envie. Et ce n'est pas necessairement des tendres, meme si leur strategie open source rechauffe le coeur.

            J'avais lu un article d'un mec de Sun qui disait que 5 avocats d'IBM etaient venus lui reclamer des royalties sur des brevets IBM. Il a passe deux semaines de recherche pour montrer que les brevets etaient invalides et il a expose ca aux avocats d'IBM. Ceux ci restes tranquilles et lui ont repondu: "Ok, on revient dans une semaine avec 10 autres brevets de notre portefeuille. Vous voulez vraiment qu'on reviennent toutes les semaines ?". Finalement, les mecs de Sun ont voulu payer.
            • [^] # Re: Commercial ?

              Posté par . Évalué à 1.

              Ce que je veux dire, c'est qu'il faut les juger sur des faits concrets :)

              http://about.me/straumat

  • # Euh vous en oubliez un de taille

    Posté par . Évalué à 10.

    Sun a mis en libre son toolkit[1] de reconnaissance vocale
    http://research.sun.com/speech/(...)

    [1] Ben oui, à l'heure actuelle, la reconnaissance vocale reste du domaine de la recherche, donc au lieu de construire un reconnaisseur, on propose un toolkit permettant d'écrire rapidement un reconnaisseur pour pouvoir expérimenter des nouvelles idées.

    Dans la description des logiciels, il y a :

    Sphinx-4: An open source speech recognition system written entirely in the JavaTM programming language. Sphinx-4 is a speaker independent, large vocabulary, continuous speech recognition system based on the Sphinx family of speech recognizers developed at Carnegie-Mellon University. The Sphinx-4 project is hosted at cmusphinx.sourceforge.net.

    Si on décrypte la phrase ci-dessus, c'est un projet ambitieux car :
    - le faire indépendant de la personne qui parle est très difficile, il faut faire de la normalisation dans un sens puis de l'adaptation dans l'autre sens. On peut notemment utiliser les coefficiants spectraux pour ça
    - le faire sur un large vocabulaire c'est très compliqué. A l'heure actuelle, on a des bons résultats quand le vocabulaire est limité à un thème (par exemple "A l'hotel"), mais là ça reste une gageure
    - le faire en continu, ça impose des contraintes temps réelles importantes, contradictoires avec le problème précédent et s'Ils font ça en java, donc ils ont du mérite

    FreeTTS: An open source speech synthesizer written entirely in the JavaTM programming language. The synthesizer is available at freetts.sourceforge.net. To learn about how FreeTTS performs read the FreeTTS - A Performance Case Study technical report.

    JavaTM Speech API: The Speech Integration Group led the development of the Java Speech API in cooperation with Sun's Java Software division and external partners. The Speech Integration Group developed and published the following specifications and documents:
    • [^] # Et un autre

      Posté par . Évalué à 1.

      A part ça, dans le domaine universitaire, à Karlsruhe (en teutonnie) et en partenariat avec la "Carnegie Mellon University" (aux US.) il y a une faculté en pointe dans ce domaine. Il y a de grandes parties de logiciels en GPL, mais aussi d'autres codes sources expliquant qu'il ne faut pas sortir le logiciel du laboratoire. Je ne sais pas trop comment tout ça s'articule.

      Le site (Interactive Systems Labs) : http://isl.ira.uka.de(...)
      • [^] # Re: Et un autre

        Posté par (page perso) . Évalué à 8.

        Il y a encore des universités qui sont restées sur des schémas de pensée anciens !
        Il fut une époque où les universités ne voulaient pas entendre parler d'industrie, c'était très mal vu. L'université servait à former des chercheurs et des enseignants qui avaient pour mission de former des chercheurs et des enseignants et ainsi de suite. C'est ce système qui a décrédibilisé l'Université aux yeux des entreprises et elles se sont tournées vers les écoles d'ingénieur. Ce phénomène est essentiellement français.

        Il y a environ 35 ans, l'Université a décidé sous la pression des politiques de se rapprocher des entreprises. C'est ainsi que Chaban-Delmas a demandé au directeur de la Sereb (Le maître d'oeuvre de la fusée Diamant) d'accueillir un thésard. Et c'est par le hasard de mon parcours universitaire que j'en ai bénéficié et cela a duré 33 ans et 3 mois.
        Depuis cette époque, les choses en changé à l'excès. Certaines entreprises ont trouvé à l'Université de la matière grise à un prix abordable et les universités ont trouvé un moyen de financer leurs laboratoires sans se rendre compte qu'elles avaient vendu leur âme au diable.

        Un excès dans un sens vient souvent après un excès dans le sens opposé. Espérons que le point d'équilibre soit rapidement trouvé car la privatisation du travail universitaire n'est pas dans sa tradition universitaire du partage de la connaissance et n'est pas faite pour le bien de la collectivité.

        Ce qui se passe maintenant, c'est que la recherche en reconnaissance de la parole coûte trop cher aux entreprises. Le fait de reverser leurs travaux vers la communauté du Logiciel Libre leur permet de bénéficier de produits performants sans avoir à en supporter tout le coût de développement.
        Serait-ce un juste retour ?
        • [^] # Re: Et un autre

          Posté par . Évalué à 1.

          Oui mais en donnant son travail à la communauté, IBM ne peut plus s'assurer qu'IBM seul recevra les fruits du travail de la communauté. Donc ce n'est pas vraiment une stratégie commerciale. Me trompe-je ?
          • [^] # Re: Et un autre

            Posté par . Évalué à 1.

            oui car si il n'est pas le seul à en bénéficier, cela peut être une brique indispensable à un autre produit. (remplace "reconnaissance vocal" par "clavier" dans ton schèma...)

            "La première sécurité est la liberté"

  • # Brevets

    Posté par . Évalué à 1.

    Sachant qu'IBM est un des plus gros détenteurs de brevets au monde, j'aimerais bien savoir combien de brevets ils ont déposés sur ce code soi-disant "libre"...
  • # cmu sphinx

    Posté par . Évalué à 3.

    J'ai utilise cmu sphinx pour commander un jeu par la parole (America's Army). Le but etait d'indiquer la position de joueurs ennemis. Ca marchait bien, mais c'est vrai qu'il faut restreindre le vocabulaire. Si deux mots se ressemblent, les chances que le soft se trompe sont grandes. Il vaut mieux eviter de rigoler et tousser, le soft a tendance a "reconnaitre" ca comme etant des mots. Je pense bien integrer ce systeme dans mon clone d'ArmyOps :)
  • # Coïncidence...

    Posté par (page perso) . Évalué à 10.

    Il y a une quinzaine de jour, j'ai pu voir le stand IBM à Hourtin. Il sentait très fortement le manchot. Un énoooooorme Tux en peluche de plus d'un mètre de haut en était la décoration la plus visible. Le personnel avait des chemises noires ornées d'un Tux sur la pochette et les personnes présentes m'ont confirmé que IBM avait résolument pris la voie du Logiciel Libre.

    Je leur ai parlé de Via-Voice, le logiciel de reconnaissance vocale le plus abouti. J'avais lu, il y a une trentaine d'années un article époustouflant sur les techniques utilisées et l'état des recherches dans leurs labos. Malgré l'énormité des sommes engagées il faut encore en dépenser beaucoup plus pour arriver à un bon résultat. Comme ce n'est pas très rentable, IBM a suspendu les recherches.
    Ils m'ont confirmé que Via-Voice ne se vendait plus. Je leur ai alors demandé pourquoi ces travaux ne seraient pas versés dans la communauté du logiciel libre afin de ne pas être perdus et que IBM y gagnerait en image de marque.
    Les deux personnes que j'ai rencontré m'ont dit que cette idée leur plaisait beaucoup, qu'elle était très pertinente et qu'ils la remonteraient à leur direction (dont ils ne me paraissaient pas très éloignés).

    Ce n'est qu'une partie de Via-Voice qui a été libérée, mais c'est à mon avis une partie très importante.
    La question que je me pose maintenant est de savoir si mon intervention à l'UEC d'Hourtin et cette décision sont liées ou si c'est pure coïncidence. Je ne le saurai sans doute jamais, et cela n'a aucune importance.
    Notre force est notre nombre et notre persévérance. Ne perdons jamais une occasion de faire avancer le Logiciel Libre. Parfois une action modeste peut entrainer de grandes choses sans même que nous ne le sachions.
  • # Reconnaissance d'ecriture

    Posté par . Évalué à 1.

    Bonjour, en parlant de la reconnaissance vocale, je voudrais savoir s'il existe un logiciel de reconnaissance d'écriture en Gpl?

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.