CommonVoice [Ubuntu 20.04]

Posté par rockn (site web personnel) le 05 octobre 2021 à 15:35. Licence CC By‑SA.

Étiquettes :

oct.

2021

À la recherche d'un logiciel de reconnaissance vocale, j'ai passé quelques heures à installer deepspeech. Bien sûr la documentation que j'ai trouvé sur internet ne parle que des modèles pré entraîné anglais.
La difficulté était donc de trouver des modèles français qui fonctionnent…
Voici un condensé des commandes que j'ai tapé dans le terminal pour avoir de la reconnaissance vocale en français.

Prérequis:

sudo apt install pyaudio portaudio19-dev
mkdir $HOME/tmp/
cd $HOME/tmp/
git clone git@github.com:mozilla/DeepSpeech-examples.git
wget https://github.com/common-voice/commonvoice-fr/releases/download/fr-v0.6/model_tensorflow_fr.tar.xz
tar -Jxvf model_tensorflow_fr.tar.xz

Installation deepspeech

virtualenv -p python3 deepspeech-venv
cd deepspeech-venv
source bin/activate
pip3 install deepspeech # or deepspeech-gpu

Copie des modèles fr

cp -r $HOME/tmp/model_tensorflow_fr models

Installation de mic_vad_streaming pour capter la vois et convertir en texte

cp -r $HOME/tmp/DeepSpeech-examples/mic_vad_streaming/ mic_vad_streaming
cd mic_vad_streaming
pip3 install -r requirements.txt

Lancement de mic_vad_streaming avec modèles fr

python3 mic_vad_streaming.py -m ../models/output_graph.pbmm -s ../models/kenlm.scorer

Le texte que j'ai lu :

bonjour linuxfr
voici les manipulations à faire pour essayer deepspeech en français
plus exactement on va essayer la voix vers le texte, le speech to text STT
savez vous s'il existe des modèles pré entraînées en français plus complet que ceux ci

Le texte qui ressort :

python3 mic_vad_streaming.py -m ../models/output_graph.pbmm -s ../models/kenlm.scorer
Initializing model…
Listening (ctrl-C to exit)…
Recognized: bonjour linux faire
Recognized: voici les manipulations à faire pour essayer dite
Recognized: en français
Recognized: plus exactement on va essayer la voix vers le texte
Recognized: le spec tout texte
Recognized: a vos il existe des modèles pré entraînées en français plus complet que ceux ci

En vrai ça marche pas mal… J'imagine qu'il faut vraiment construire des modèles/scorer français (*.pbmm et *.scorer) pour avoir plus de mots et de prononciation/timbre/caractéristique de voix qui soient reconnus.
CommonVoice est-il la clé pour de la reco vocale de qualité et libre ?

Et vraiment, si vous connaissez des modèles pré entraîné en français de meilleure qualité, je suis preneur.

# Quelques ajustements

Posté par harlock974 le 06 octobre 2021 à 06:46. Évalué à 3.

Bonjour rockn,
Merci pour le partage, ça faisait longtemps que j'avais envie d'essayer la reconnaissance vocale.

J'ai eu un peu de mal pour l'installation (pb de dépendances et autre). Voici ce qui a marché chez moi (Linux Mint 20.2) :

sudo apt install python3-pyaudio portaudio19-dev python3-virtualenv python3-dev
mkdir $HOME/tmp/
cd $HOME/tmp/
git clone https://github.com/mozilla/DeepSpeech-examples.git
virtualenv -p python3 deepspeech-venv
cd deepspeech-venv
mkdir models
cd models/
wget https://github.com/common-voice/commonvoice-fr/releases/download/fr-v0.6/model_tensorflow_fr.tar.xz
tar -Jxvf model_tensorflow_fr.tar.xz
cd ..
source bin/activate
pip3 install deepspeech
cp -r $HOME/tmp/DeepSpeech-examples/mic_vad_streaming/ mic_vad_streaming
cd mic_vad_streaming
pip3 install -r requirements.txt
python3 mic_vad_streaming.py -m ../models/output_graph.pbmm -s ../models/kenlm.scorer

[^] # Re: Quelques ajustements

Posté par rockn (site web personnel) le 07 octobre 2021 à 13:27. Évalué à 1.

Merci pour ces ajustements :)

# Commentaire supprimé

Posté par Anonyme le 06 octobre 2021 à 23:28. Évalué à 3.

Ce commentaire a été supprimé par l’équipe de modération.
- [^] # Re: convertir un fichier audio
  
  Posté par Gil Cot ✔ (site web personnel, Mastodon) le 07 octobre 2021 à 00:39. Évalué à 2.
  
  ffmpeg et sox entre autres lame ou flac en console. Gnac et free:ac aussi en mode graphique.
  
  “It is seldom that liberty of any kind is lost all at once.” ― David Hume
  - [^] # Commentaire supprimé
    
    Posté par Anonyme le 07 octobre 2021 à 08:57. Évalué à 2. Dernière modification le 07 octobre 2021 à 08:57.
    
    Ce commentaire a été supprimé par l’équipe de modération.
- [^] # Re: convertir un fichier audio
  
  Posté par rockn (site web personnel) le 07 octobre 2021 à 13:26. Évalué à 2.
  Si je me réfère à la doc https://deepspeech.readthedocs.io/en/r0.9/
  
  Il faudrait tester cette commande :
```
# Transcribe an audio file
deepspeech --model deepspeech-0.9.3-models.pbmm --scorer deepspeech-0.9.3-models.scorer --audio audio/2830-3980-0043.wav
```
  En adaptant les chemins du modèle et scorer.
  J'ai pas encore essayé…
  - [^] # Commentaire supprimé
    
    Posté par Anonyme le 07 octobre 2021 à 13:46. Évalué à 2.
    
    Ce commentaire a été supprimé par l’équipe de modération.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.