Journal De l'apprentissage profond qui en jette avec Opus 1.5

Posté par  . Licence CC By‑SA.
Étiquettes :
53
5
mar.
2024

Salut,

J'étais déjà impressionné par LPCNet qui est un « codec » permettant d'encoder la voix humaine à l'aide d'un réseau de neurones pré-entraîné.

Bon, les gens de chez Opus ont pris ça, et ont fait un tas de trucs sympas en plus : https://opus-codec.org/demo/opus-1.5/

Si vous voulez aller vite, la dernière démo vaut le coup : elle simule la perte de paquets en transmission de voix, et recrée au mieux ce qui est perdu. Le résultat est bluffant. Essayez à 90% de perte pour voir si vous comprenez quelque chose à l'original (Select redundancy à None), et basculez ensuite sur une des différentes méthodes de reconstruction.

Le pire, c'est que c'est « pas cher payé » :

Use the --enable-dred configure option (which automatically turns on --enable-deep-plc) to enable DRED. Doing so increases the binary size by about 2 MB, with a run-time cost around 1% like for deep PLC.

Alors oui, pour les vieux téléphones ou machines, ça va se sentir, mais sinon, c'est… presque gratuit.

  • # Publié le 4, sur linuxfr le 5.

    Posté par  . Évalué à -8 (+3/-12).

    Intéressant, merci pour la veille technologique.

    Je préfère autrement ça aux prises de position morales, notion orthogonale aux licences libres même si ça me démange aussi comme beaucoup. Je m'arrêterai là par pragmatisme et peut-être par respect à l'esprit des licences libres car constituer des biens communs avec des gens que tout peut opposer est réjouissant. Ce sera un sujet de moins sur lequel se taper dessus, la seule chose en commun. Les licences libres sont une notion non totalisante et c'est tant mieux en ces jours où le vrai et le faux, le bien et le mal semblent surtout être définis par le plus puissant.

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.