Journal Lyra le codec audio qui diminue la bande passante par deux

Posté par Glandos le 27 février 2021 à 10:05. Licence CC By‑SA.

Étiquettes :

fév.

2021

Je suis tombé, via Phoronix, sur l'annonce de Google : https://ai.googleblog.com/2021/02/lyra-new-very-low-bitrate-codec-for.html

D'abord, je suis toujours sidéré par les avancées que l'on continue de faire en compression. Même en sans perte, avec Zstd, c'est impressionnant, alors en perdant des informations, on progresse vraiment très fort.

Je ne vais rappeler l'état de l'art en vidéo, mais en audio, y a quand même Opus qui maîtrise tout le monde, avec son adaptation dynamique bande large ou étroite, sa latence relativement faible, et bien sûr sa qualité audio finale supérieure.

Dans les codecs à modèle d'apprentissage, il y avait eu LPCNet, qui est plutôt un vocodeur : il ne sait faire que de la voix. Mais allez jouer les démos, c'est incroyable ce qu'on peut faire à 1,6kbps. Et en même temps, sur la musique, c'est plutôt … inaudible : il y a quelques liens disponibles sur le fil de HackerNews.

Et là, Lyra est un codec audio générique. Et à 3kbps, je trouve qu'il fait des merveilles. Mais même si le son semble plus « clair » en Lyra@3kbps, je comprends mieux le dialogue en Opus@6kbps. En même temps, c'est de l'anglais, ce n'est pas ma langue maternelle…

Ah, et pour se faire mousser un peu, Google annonce : Lyra + AV1 => Visioconférence en 56kbps. Je suis sûr que des lecteurs ici comprendront mon émotion, en se remémorant ce qu'on pouvait faire à l'époque où le 56kbps était la vitesse la plus rapide disponible.

# code ? licence ? brevet ?

Posté par Benoît Sibaud (site web personnel) le 27 février 2021 à 10:21. Évalué à 10.

Le papier scientifique ne contient pas de code (comme pour Opus) et il n'y a pas de mention de licence ou de brevet.
# Je comprend ton émotion

Posté par WrathOfThePixel le 27 février 2021 à 11:25. Évalué à 10.

Je suis sûr que des lecteurs ici comprendront mon émotion, en se remémorant ce qu'on pouvait faire à l'époque où le 56kbps était la vitesse la plus rapide disponible.

mais si ça peut te rassurer, quand on était équipé en 56kbps, les machine n'auraient jamais été assez puissantes pour compresser et décompresser de l'audio + vidéo à ces taux là en temps réèl.
# IA

Posté par Christie Poutrelle (site web personnel) le 27 février 2021 à 13:23. Évalué à 6. Dernière modification le 27 février 2021 à 13:24.

Surtout ce qui me surprend avec ce codec, c'est que ça ressemble beaucoup à la visio-conférence avec reconstruction d'image en utilisant un IA de Nvidia, si j'ai bien compris ce codec ne restitue pas le son que tu envoies, mais reconstruit une version synthétique avec de l'IA. Ce que tu entends de l'autre côté n'est pas la voix de la personne, mais une imitation par ordinateur reconstruite par une algo basée sur un réseau neural entraînée d'une façon spécifique. Donc si tu sors de ce pourquoi elle a été entraînée, ça risque de déconner un poil.

Ma source, qui n'est peut-être pas la meilleure au monde https://www.phoronix.com/scan.php?page=news_item&px=Google-Lyra
- [^] # Re: IA
  
  Posté par antistress (site web personnel) le 27 février 2021 à 14:21. Évalué à 7. Dernière modification le 27 février 2021 à 14:22.
  
  https://libre-ouvert.tuxfamily.org/data/documents/retour_vers_le_futur_2_nom_de_zeus.ogg
  Ah ouais, ça serait un changement de paradigme quand même
  Et philosophiquement pourquoi n'aurait t-on pas les mêmes soucis d’interprétation/déformation qu'avec le mécanisme humain de la rumeur (j'entends, j’interprète, je restitue… y a t-il identité de sens au final ?)
  - [^] # Re: IA
    
    Posté par thoasm le 27 février 2021 à 16:01. Évalué à 4.
    
    C’est les mêmes techniques que les deepfake pour faire dire à quelqu’un d’autre ce que tu dis.
- [^] # Re: IA
  
  Posté par flagos le 28 février 2021 à 10:36. Évalué à 3.
  
  C'est déjà encodé plus ou moins encodé comme ça dans le standard GSM (dans mes vieux souvenirs de traitement du signal), et plus généralement dans les algo de compression audio orienté voix.
  
  https://en.m.wikipedia.org/wiki/Source%E2%80%93filter_model
  
  La voix est représentée en sources de type cordes vocales, larynx sur lequel on fait des prédictions, et on encode par dessus les éventuels résidus. Le souci qui apparaît avec cette technique, c'est que le son est assez métallique, comme robotique.
  
  Ce que propose Google, c'est de rajouter par dessus de l'AI, pour gommer cet aspect métallique, et donc se permettre de compresser d'autant plus.
# speech compression

Posté par flagos le 28 février 2021 à 10:44. Évalué à 3.

Et là, Lyra est un codec audio générique.

Google parle bien de speech compression, c'est orienté voix.

Parce qu'un codec audio généraliste de qualité acceptable à 3kbps, ce serait vraiment fort !
- [^] # Re: speech compression
  
  Posté par Antoine J. le 28 février 2021 à 22:28. Évalué à 10. Dernière modification le 28 février 2021 à 22:28.
  
  i2bp le faisait il y a vingt ans
  - [^] # Re: speech compression
    
    Posté par Paul POULAIN (site web personnel, Mastodon) le 02 mars 2021 à 09:06. Évalué à 5.
    
    Pour les plus jeunes :
    - https://linuxfr.org/news/i2bp-is-back
    - https://www.01net.com/actualites/i2bp-bluff-ou-coup-de-genie-136472.html
  - [^] # Re: speech compression
    
    Posté par AnthonyRabine (site web personnel) le 04 mars 2021 à 11:03. Évalué à 1. Dernière modification le 04 mars 2021 à 11:03.
    
    Mais oui ! Je les vais oubliés ceux là. Dingue le temps qui passe.
# ce message est compressé a 0.1 kbps

Posté par Guillaume D. le 08 mars 2021 à 17:39. Évalué à 1.

La prouesse technique est bien la,
Mais n'est t'on pas tout simplement proche de la reconnaissance vocale puis synthèse.
Aujourd'hui si je dicte un SMS, que je l'envoie, et que mon correspondant le fait lire a son téléphone, on est a la louche <0.1kbps (6bits x 16 caractères/secondes).
Si on compresse le texte (avec un dico pour faire du temps réel), on doit pouvoir descendre bien plus bas.

Ca vaut le coups de se poser la question, car si c'est pour au final avoir une voie de robot, ou non identifiable a celle d'origine, quel interet a compresser du son, alors que le message a faire passer est une phrase. (Bien oui, l'humain vocalise une phrase…)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.