Forum général.cherche-logiciel Saisie vocale

Posté par  . Licence CC By‑SA.
Étiquettes :
6
6
avr.
2023

Bonjour,

Je cherche une solution pour une connaissance dont le besoin est simple à énoncer : pouvoir dicter au lieu d'écrire, et remplacer ainsi la saisie au clavier dans LibreOffice ou un éditeur de texte.

La personne utilise un laptop sur lequel tourne une version récente (la dernière, il me semble) de Linux Mint (famille Debian/Ubuntu, donc).

L'idéal serait que le traitement du signal se fasse sur la machine elle-même plutôt que via un service en ligne, mais ce n'est (…)

Journal Compter automatiquement les mots prononcés sur les chaînes d'information continue

117
27
déc.
2021

Ce journal traite d'un système d’acquisition, de reconnaissance vocale et une base de donnée des mots prononcés sur les chaînes d’information continue de la Télévision Numérique Terrestre française (TNT). Je présente aussi des résultats obtenus sur quelques candidats à l'élection présidentielle française et quelques thèmes d'actualité.

Le code est disponible ici sous licence AGPL.

Introduction

Ces dernières années en France, le traitement de l’information par les médias grand public a fait l’objet de virulents débats, notamment durant la crise des (…)

Forum Linux.debian/ubuntu Voix vers Texte en français avec Deepspeech/CommonVoice [Ubuntu 20.04]

Posté par  (site web personnel) . Licence CC By‑SA.
6
5
oct.
2021

À la recherche d'un logiciel de reconnaissance vocale, j'ai passé quelques heures à installer deepspeech. Bien sûr la documentation que j'ai trouvé sur internet ne parle que des modèles pré entraîné anglais.
La difficulté était donc de trouver des modèles français qui fonctionnent…
Voici un condensé des commandes que j'ai tapé dans le terminal pour avoir de la reconnaissance vocale en français.

Prérequis:

sudo apt install pyaudio portaudio19-dev
mkdir $HOME/tmp/
cd $HOME/tmp/
git clone git@github.com:mozilla/DeepSpeech-examples.git
wget https://github.com/common-voice/commonvoice-fr/releases/download/fr-v0.6/model_tensorflow_fr.tar.xz
tar -Jxvf model_tensorflow_fr.tar.xz

(…)

Firefox 76 (dites : Septantesix)

53
5
mai
2020
Mozilla

La version 76 de Firefox desktop a été publiée le 5 mai 2020.

La crise sanitaire actuelle commence à se ressentir dans le rythme des nouveautés proposées. En effet, Mozilla a décidé de maintenir le calendrier de publication des nouvelles versions de Firefox, quitte à reporter certaines fonctionnalités.

Paradoxalement, on pourrait dire que les principales améliorations de cette version, outre les corrections de bogues toujours bienvenues, sont des améliorations en devenir : l’implémentation d’un mode « HTTPS uniquement » mais qui, à ce stade, reste caché – car expérimental – comme l’est l’accélération matérielle du décodage des vidéos VP9 sous Wayland ; l’adossement de WebRender au compositeur système sur Windows, mais dont le déploiement chez les utilisateurs se fait progressivement.

Les nouveautés sont développées dans la deuxième partie. Nous en profitons en effet pour faire le point sur un certain nombre de développements en cours (du côté d’Android, par exemple, une grande étape vient d’être franchie avec Firefox Preview).

     
  Septantesix, druide belge dans Astérix   Dessin d’Albert Uderzo  

Firefox 72

69
8
jan.
2020
Mozilla

La version 72 de Firefox pour le bureau a été publiée le 7 janvier 2020. Les principales améliorations concernent la fin des fenêtres surgissantes pour les notifications des sites Web, le blocage par défaut des détecteurs d’empreinte numérique, et le mode « image dans l’image » — Picture in Picture — qui débarque (notamment) sur GNU/Linux !

Par ailleurs, un bogue touchant Firefox 71 dans ses versions diffusées par les distributions GNU/Linux qui entravait le bon fonctionnement de différentes extensions (qui ne pouvaient plus sauvegarder localement leurs données de fonctionnement) a été corrigé dans l’intervalle.

Comme d’habitude, les nouveautés sont développées dans la deuxième partie.

Journal NoComprendo, la commande vocale pour Linux

Posté par  (site web personnel) . Licence CC By‑SA.
74
28
nov.
2019

Un contexte douloureux

Je pousse la souris depuis sa démocratisation (dans les années 80), je control-alt-shifte depuis encore plus longtemps ce qui fait de moi un bon connaisseur en TMS.
Ajoutons aussi une fracture du poignet gauche, il y a quelques années, qui m'ont rendu le Ctrl+Shift+Lettre douloureux en fin de journée.

J'ai pensé à la commande vocale. L'idée n'était pas de se passer d'un clavier, mais de pouvoir lancer verbalement quelques raccourcis claviers pour soulager mes articulations.

Trouver

(…)

Firefox 66 sur la route !

60
20
mar.
2019
Mozilla

La version 66 de Firefox a été publiée le 19 mars 2019.

Les principales nouveautés amélioreront votre confort (lecture automatique bloquée sur les versions bureau et Android, défilement d’une page en cours de chargement optimisé pour éviter les sauts sur la version bureau), votre productivité (recherche possible à travers les onglets ouverts sur la version bureau, prise en charge préliminaire de la Touch Bar des Mac), sans oublier les performances et la sécurité!

Nous évoquerons aussi les avancées dans l’implémentation du moteur de rendu graphique WebRender, et un nouveau projet d’envergure : Fission.

Comme d’habitude, le détail des nouveautés suit ci‐dessous.

Mozilla Common Voice : vers une reconnaissance vocale libre

Posté par  . Édité par Benoît Sibaud, Davy Defaud, ZeroHeure et claudex. Modéré par ZeroHeure. Licence CC By‑SA.
44
1
août
2017
Mozilla

La Fondation Mozilla a discrètement lancé le projet Common Voice, qui a pour objectif de fournir une base de données de voix à destination des développeurs de logiciels de reconnaissance vocale. D’ici la fin de l’année, la base de données sera mise à disposition de la communauté sous licence CC-0, et pourra être utilisée par les développeurs pour entraîner leurs logiciels de reconnaissance vocale.

Il est actuellement possible de participer depuis le Web, en lisant des phrases en anglais et en indiquant son accent, son âge et son genre pour enrichir la base de données. Des applications sont déjà en cours de développement pour les appareils mobiles et devraient être disponibles prochainement. Pour ceux qui ne parlent pas anglais, il est aussi possible de contribuer au projet en produisant des phrases pertinentes ainsi que du code dans GitHub.

Forum général.cherche-logiciel [android] logiciel de transcription voix vers texte

Posté par  . Licence CC By‑SA.
1
30
mai
2017

Bonjour.

Je cherche un logiciel capable d'afficher en temps réel les paroles détectées en texte sur une tablette. Le but est de faciliter la communication avec ma grand mère qui a de gros problèmes auditifs (une oreille HS et l'autre en très piteux état).
L'utilisateur ne serait pas ma grand-mère.

L'appareil de destination est une tablette xperia Z5, je ne connais pas la version d'android qui tourne dessus, très probablement celle d'origine (l'appareil n'est pas a moi).

Phoseg, stockage et analyse de données phonétiques transcrites

Posté par  (site web personnel) . Édité par Pierre Jarillon. Modéré par patrick_g. Licence CC By‑SA.
25
14
déc.
2012
Technologie

Bonjour à tous,
dans le cadre d'un projet j'ai besoin d'un module pour stocker et analyser des données phonétiques transcrites, par exemple avec l'alphabet phonétique international. Mon code commence à devenir (vaguement) utilisable : je le publie donc sous une licence GLPv3 : Phoseg est un module pour Python3 que vous trouverez à cette adresse.

J'ai essayé de coller à certains principes facilitant le travail en communauté ainsi que l'écriture de code lisible : tests unitaires, code et commentaires écrits en anglais, surveillance de la qualité du code par pylint, documentation fournie.

Concrètement, je cherche d'autres personnes susceptibles d'utiliser ou d'améliorer mon module. Si vous êtes un spécialiste de la phonétique, j'ai aussi de nombreuses questions à vous poser… De façon générale, n'hésitez pas à faire remonter vos remarques, je n'attends que ça, surtout si elles sont négatives !

Sondage Comment aimez-vous les serveurs vocaux ?

Posté par  .
5
22
oct.
2012

On voit utiliser de plus en plus la reconnaissance vocale dans les systèmes de serveurs vocaux (banques, assurances, etc.), comme par exemple pour

  • consulter votre facture, dites facture
  • demander un devis, dites devis
  • etc.

Ces systèmes se veulent modernes, bien que ça ait commencé il y a près de 15 ans (serveur vocal de la cité des sciences de La Villette en 1998 par exemple, auquel il fallait répondre oui ou non). Cependant ces systèmes sont potentiellement gênants, car ils imposent à l'usager (le client) de prononcer à haute voix les mots. Donc dans les lieux publics ou les réunions ça manque de discrétion.

Et vous comment aimez-vous les serveurs vocaux ?

  • Reconnaissance vocale :
    8
    (0.6 %)
  • Chiffres à taper :
    307
    (22.7 %)
  • Les deux : reconnaissance vocale ou chiffres à taper :
    105
    (7.7 %)
  • Pas de serveur vocal : personne physique uniquement au téléphone :
    330
    (24.4 %)
  • Pas de serveur vocal : Internet et clic de souris :
    467
    (34.5 %)
  • Pas de serveur vocal : je me déplace au guichet :
    79
    (5.8 %)
  • Pas de serveur vocal : je reçois les infos par courriel, SMS, etc. :
    59
    (4.4 %)

Total : 1355 votes

Journal La transcription vocale naturelle.

Posté par  .
20
6
mar.
2012

Pour m'aider a rédiger les documentations nécessaires à mon travail, j'ai acheté Dragon version home. Comme je travaille aussi sous le Linux le je me demandais où en été la reconnaissance vocale sur notre système préféré. J'ouvre donc ce journal pour essayer de réunir toutes les informations sur la reconnaissance vocale disponible sous Linux.

Merci d'avance de votre aide.

Voici ce que j'ai déjà collecté :

1 - "CMU_Sphinx" Librairie utilisé par exemple Perlbox
2 - "gnome-voice-control" Contrôler l'environnement GNOME (…)

Avancées de la reconnaissance vocale en 2011

Posté par  (site web personnel) . Modéré par baud123. Licence CC By‑SA.
42
27
mar.
2011
Audiovisuel

Voici un sujet qui fait parler de lui, un rêve de l'informatique qui s'approche à grand pas, voire qui est déjà présent dans bien des applications ! Vous avez certainement en tête le fameux « Via Voice » édité par IBM ou son successeur « Dragon naturally Speaking » édité par Scansoft. Les plus accros d'entre vous n'auront pas hésité à installer la reconnaissance vocale prévue par défaut dans XP, Vista ou Seven.

Mais lors du passage au libre, que nous effectuons pour la plupart pour des raisons différentes, avec des approches philosophiques, économiques ou pratiques, nous sommes confrontés à la perte de plusieurs des logiciels et/ou fonctionnalités que nous avions adoptés précédemment (compatibilité de notre écosystème logiciel). Pour ceux d'entre nous qui avaient fait le choix de la reconnaissance vocale, cette fonctionnalité reste difficilement remplaçable dans le monde de GNU/Linux. Les logiciels propriétaires cités précédemment ne sont pas prévus pour fonctionner sous nos distributions, et la communauté ne semble pas encore prête à offrir une alternative efficace. Il existe cependant quelques projets similaires dont l'avancement ne peut être négligé :

  • tout d'abord la source de données audio qui aide à la mise en place de ces projets : Voxforge collecte les données audio dans différentes langues pour permettre l'implémentation de l'utilisation de ces données par des moteurs de moteurs de reconnaissance vocale Open Source ;
  • CMUSphinx est le plus célèbre d'entre eux. Il permet – dans le cadre de la recherche principalement – d'obtenir la transcription écrite de données orales. D'un langage de programmation assez simple, basé sur des phonèmes, il permet d'obtenir des résultats prometteurs pour le développement d'applications libres selon les 3 règles chères aux plus stricts d'entre nous ;
  • un premier développement a été effectué il y a quelques années déjà pour la communauté française, avec Perlbox, qui permet de piloter son ordinateur en français, basé sur CMUsphinx 2 ;
  • une approche plus récente, toujours basée sur le projet CMUsphinx, est proposée par EvalDictator, mais pas encore disponible en français.

Alors vous me direz, quoi de neuf ? Et bien Google s'est aussi lancé dans la course à la reconnaissance vocale. Cela ne date pas d'hier :