Journal Lyra le codec audio qui diminue la bande passante par deux

Posté par  . Licence CC By‑SA.
Étiquettes :
28
27
fév.
2021

Je suis tombé, via Phoronix, sur l'annonce de Google : https://ai.googleblog.com/2021/02/lyra-new-very-low-bitrate-codec-for.html

D'abord, je suis toujours sidéré par les avancées que l'on continue de faire en compression. Même en sans perte, avec Zstd, c'est impressionnant, alors en perdant des informations, on progresse vraiment très fort.

Je ne vais rappeler l'état de l'art en vidéo, mais en audio, y a quand même Opus qui maîtrise tout le monde, avec son adaptation dynamique bande large ou étroite, sa latence relativement faible, et bien sûr sa qualité audio finale supérieure.

Dans les codecs à modèle d'apprentissage, il y avait eu LPCNet, qui est plutôt un vocodeur : il ne sait faire que de la voix. Mais allez jouer les démos, c'est incroyable ce qu'on peut faire à 1,6kbps. Et en même temps, sur la musique, c'est plutôt … inaudible : il y a quelques liens disponibles sur le fil de HackerNews.

Et là, Lyra est un codec audio générique. Et à 3kbps, je trouve qu'il fait des merveilles. Mais même si le son semble plus « clair » en Lyra@3kbps, je comprends mieux le dialogue en Opus@6kbps. En même temps, c'est de l'anglais, ce n'est pas ma langue maternelle…

Ah, et pour se faire mousser un peu, Google annonce : Lyra + AV1 => Visioconférence en 56kbps. Je suis sûr que des lecteurs ici comprendront mon émotion, en se remémorant ce qu'on pouvait faire à l'époque où le 56kbps était la vitesse la plus rapide disponible.

  • # code ? licence ? brevet ?

    Posté par  (site web personnel) . Évalué à 10.

    Le papier scientifique ne contient pas de code (comme pour Opus) et il n'y a pas de mention de licence ou de brevet.

  • # Je comprend ton émotion

    Posté par  . Évalué à 10.

    Je suis sûr que des lecteurs ici comprendront mon émotion, en se remémorant ce qu'on pouvait faire à l'époque où le 56kbps était la vitesse la plus rapide disponible.

    mais si ça peut te rassurer, quand on était équipé en 56kbps, les machine n'auraient jamais été assez puissantes pour compresser et décompresser de l'audio + vidéo à ces taux là en temps réèl.

  • # IA

    Posté par  (site web personnel) . Évalué à 6. Dernière modification le 27 février 2021 à 13:24.

    Surtout ce qui me surprend avec ce codec, c'est que ça ressemble beaucoup à la visio-conférence avec reconstruction d'image en utilisant un IA de Nvidia, si j'ai bien compris ce codec ne restitue pas le son que tu envoies, mais reconstruit une version synthétique avec de l'IA. Ce que tu entends de l'autre côté n'est pas la voix de la personne, mais une imitation par ordinateur reconstruite par une algo basée sur un réseau neural entraînée d'une façon spécifique. Donc si tu sors de ce pourquoi elle a été entraînée, ça risque de déconner un poil.

    Ma source, qui n'est peut-être pas la meilleure au monde https://www.phoronix.com/scan.php?page=news_item&px=Google-Lyra

    • [^] # Re: IA

      Posté par  (site web personnel) . Évalué à 7. Dernière modification le 27 février 2021 à 14:22.

      https://libre-ouvert.tuxfamily.org/data/documents/retour_vers_le_futur_2_nom_de_zeus.ogg
      Ah ouais, ça serait un changement de paradigme quand même
      Et philosophiquement pourquoi n'aurait t-on pas les mêmes soucis d’interprétation/déformation qu'avec le mécanisme humain de la rumeur (j'entends, j’interprète, je restitue… y a t-il identité de sens au final ?)

      • [^] # Re: IA

        Posté par  . Évalué à 4.

        C’est les mêmes techniques que les deepfake pour faire dire à quelqu’un d’autre ce que tu dis.

    • [^] # Re: IA

      Posté par  . Évalué à 3.

      C'est déjà encodé plus ou moins encodé comme ça dans le standard GSM (dans mes vieux souvenirs de traitement du signal), et plus généralement dans les algo de compression audio orienté voix.

      https://en.m.wikipedia.org/wiki/Source%E2%80%93filter_model

      La voix est représentée en sources de type cordes vocales, larynx sur lequel on fait des prédictions, et on encode par dessus les éventuels résidus. Le souci qui apparaît avec cette technique, c'est que le son est assez métallique, comme robotique.

      Ce que propose Google, c'est de rajouter par dessus de l'AI, pour gommer cet aspect métallique, et donc se permettre de compresser d'autant plus.

  • # speech compression

    Posté par  . Évalué à 3.

    Et là, Lyra est un codec audio générique.

    Google parle bien de speech compression, c'est orienté voix.

    Parce qu'un codec audio généraliste de qualité acceptable à 3kbps, ce serait vraiment fort !

  • # ce message est compressé a 0.1 kbps

    Posté par  . Évalué à 1.

    La prouesse technique est bien la,
    Mais n'est t'on pas tout simplement proche de la reconnaissance vocale puis synthèse.
    Aujourd'hui si je dicte un SMS, que je l'envoie, et que mon correspondant le fait lire a son téléphone, on est a la louche <0.1kbps (6bits x 16 caractères/secondes).
    Si on compresse le texte (avec un dico pour faire du temps réel), on doit pouvoir descendre bien plus bas.

    Ca vaut le coups de se poser la question, car si c'est pour au final avoir une voie de robot, ou non identifiable a celle d'origine, quel interet a compresser du son, alors que le message a faire passer est une phrase. (Bien oui, l'humain vocalise une phrase…)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.