Réaliser un prétraitement avec py-webrtcvad, (vad pour voice activity détection) qui est vraiment performant, pour ne travailler que sur les parties avec de la voix et ne pas analyser inutilement avec VOSK les blancs vocaux ?
Par ailleurs je passe le son en mono avant traitement par VOSK (mais la télé c’est probablement déjà en mono…).
PS VOSK est derrière le générateur automatique de sous-titres de Kdenlive…
# gagner sur les calculs de VOSK avec Py-WebRTCvad ?
Posté par le_code_élégant . En réponse au journal Compter automatiquement les mots prononcés sur les chaînes d'information continue. Évalué à 2.
Réaliser un prétraitement avec py-webrtcvad, (vad pour voice activity détection) qui est vraiment performant, pour ne travailler que sur les parties avec de la voix et ne pas analyser inutilement avec VOSK les blancs vocaux ?
Par ailleurs je passe le son en mono avant traitement par VOSK (mais la télé c’est probablement déjà en mono…).
PS VOSK est derrière le générateur automatique de sous-titres de Kdenlive…