Forum Linux.debian/ubuntu Voix vers Texte en français avec Deepspeech/CommonVoice [Ubuntu 20.04]

Posté par  (site web personnel) . Licence CC By‑SA.
6
5
oct.
2021

À la recherche d'un logiciel de reconnaissance vocale, j'ai passé quelques heures à installer deepspeech. Bien sûr la documentation que j'ai trouvé sur internet ne parle que des modèles pré entraîné anglais.
La difficulté était donc de trouver des modèles français qui fonctionnent…
Voici un condensé des commandes que j'ai tapé dans le terminal pour avoir de la reconnaissance vocale en français.

Prérequis:

sudo apt install pyaudio portaudio19-dev
mkdir $HOME/tmp/
cd $HOME/tmp/
git clone git@github.com:mozilla/DeepSpeech-examples.git
wget https://github.com/common-voice/commonvoice-fr/releases/download/fr-v0.6/model_tensorflow_fr.tar.xz
tar -Jxvf model_tensorflow_fr.tar.xz

Installation deepspeech

virtualenv -p python3 deepspeech-venv
cd deepspeech-venv
source bin/activate
pip3 install deepspeech # or deepspeech-gpu

Copie des modèles fr

cp -r $HOME/tmp/model_tensorflow_fr models

Installation de mic_vad_streaming pour capter la vois et convertir en texte

cp -r $HOME/tmp/DeepSpeech-examples/mic_vad_streaming/ mic_vad_streaming
cd mic_vad_streaming
pip3 install -r requirements.txt

Lancement de mic_vad_streaming avec modèles fr

python3 mic_vad_streaming.py -m ../models/output_graph.pbmm -s ../models/kenlm.scorer

Le texte que j'ai lu :

bonjour linuxfr
voici les manipulations à faire pour essayer deepspeech en français
plus exactement on va essayer la voix vers le texte, le speech to text STT
savez vous s'il existe des modèles pré entraînées en français plus complet que ceux ci

Le texte qui ressort :

python3 mic_vad_streaming.py -m ../models/output_graph.pbmm -s ../models/kenlm.scorer
Initializing model…
Listening (ctrl-C to exit)…
Recognized: bonjour linux faire
Recognized: voici les manipulations à faire pour essayer dite
Recognized: en français
Recognized: plus exactement on va essayer la voix vers le texte
Recognized: le spec tout texte
Recognized: a vos il existe des modèles pré entraînées en français plus complet que ceux ci

En vrai ça marche pas mal… J'imagine qu'il faut vraiment construire des modèles/scorer français (*.pbmm et *.scorer) pour avoir plus de mots et de prononciation/timbre/caractéristique de voix qui soient reconnus.
CommonVoice est-il la clé pour de la reco vocale de qualité et libre ?

Et vraiment, si vous connaissez des modèles pré entraîné en français de meilleure qualité, je suis preneur.

  • # Quelques ajustements

    Posté par  . Évalué à 3.

    Bonjour rockn,
    Merci pour le partage, ça faisait longtemps que j'avais envie d'essayer la reconnaissance vocale.

    J'ai eu un peu de mal pour l'installation (pb de dépendances et autre). Voici ce qui a marché chez moi (Linux Mint 20.2) :

    sudo apt install python3-pyaudio portaudio19-dev python3-virtualenv python3-dev
    mkdir $HOME/tmp/
    cd $HOME/tmp/
    git clone https://github.com/mozilla/DeepSpeech-examples.git
    virtualenv -p python3 deepspeech-venv
    cd deepspeech-venv
    mkdir models
    cd models/
    wget https://github.com/common-voice/commonvoice-fr/releases/download/fr-v0.6/model_tensorflow_fr.tar.xz
    tar -Jxvf model_tensorflow_fr.tar.xz
    cd ..
    source bin/activate
    pip3 install deepspeech
    cp -r $HOME/tmp/DeepSpeech-examples/mic_vad_streaming/ mic_vad_streaming
    cd mic_vad_streaming
    pip3 install -r requirements.txt
    python3 mic_vad_streaming.py -m ../models/output_graph.pbmm -s ../models/kenlm.scorer
  • # Commentaire supprimé

    Posté par  . Évalué à 3.

    Ce commentaire a été supprimé par l’équipe de modération.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.