• # Ai-je bien compris

    Posté par  . Évalué à 8.

    Corrigez-moi si je dis n'importe quoi, mais est-ce que ces fantastiques taux de compression ne sont pas un peu… artificiels ?

    Je veux dire, on a un énorme dictionnaire de départ (le LLM), adapté en plus à la langue du texte, et, Ô surprise, on arrive (en gros) à utiliser des "index" dans ce tableau pour exprimer ce qu'il y a dans le texte de départ.
    Si, énorme coup de bol, un paragraphe entier est dans le dictionnaire, jackpot ! :)

    Possible qu'un xz doté d'un dictionnaire préexistant énorme ferait des miracles aussi…

    J'ai bon ?

    • [^] # Re: Ai-je bien compris

      Posté par  (site web personnel) . Évalué à 7.

      Enfin quand tu vois les limitations :

      A GPU is mandatory to get a reasonable speed. Depending on the model size, the speed varies between a few kB/s to one hundred kB/s.
      The same exact GPU model and program versions must be used for compression and decompression.
      The model is frozen so it works only for text files in a language that the model has already seen.

      Tu vois bien que niveau performances et flexibilité c'est finalement assez mauvais.

      Je pense qu'il faut voir ça comme un jouet ou une démo plutôt qu'une révolution. ;)

      • [^] # Re: Ai-je bien compris

        Posté par  . Évalué à 2.

        The same exact GPU model

        Wat? Et du coup, est-ce vrai pour la version du pilote aussi ? Pourquoi ça influe ?

        Si quelqu'un a des idées…

    • [^] # Re: Ai-je bien compris

      Posté par  (site web personnel) . Évalué à 3.

      Le principe de compression est de predire le texte puis de coder les modif. Ici, c est l ia qui fait cela.

      Les taux de compression sont autour de 1/8, xz fait 13%. C est comparrable.

      "La première sécurité est la liberté"

      • [^] # Re: Ai-je bien compris

        Posté par  (site web personnel) . Évalué à 2.

        On fait souvent le lien entre compressibilité et entropie au sens de Shannon. Y aurait-il une raison sous-jacente à ce que ces deux méthodes de compression atteignent des efficacités comparables ? Serait-ce trop capillotracté d'imaginer en déduire que les modèles de langage sont des machines à produire du texte aussi dénué d'information (sans entropie) que possible ?

        « IRAFURORBREVISESTANIMUMREGEQUINISIPARETIMPERAT » — Odes — Horace

    • [^] # Re: Ai-je bien compris

      Posté par  . Évalué à 0.

      Possible qu'un xz doté d'un dictionnaire préexistant énorme ferait des miracles aussi…

      Ça l’appelle brotli.

    • [^] # Re: Ai-je bien compris

      Posté par  (site web personnel, Mastodon) . Évalué à 2.

      Dans le classement de Matt Mahoney des algorithmes de compression, on ne prend pas en compte seulement la taille du fichier compressé, mais aussi la taille du programme de décompression (donc dans ce cas précis, le "dictionnaire").

      Cela n'empêche pas nncp de se classer devant tous ses concurrents.

      Le décompresseur fait 200Ko, ce qui n'est pas énorme pour ce test (ou les données à compresser sont très grosses).

  • # Fabrice Bellard : un palmarès impressionnant !

    Posté par  . Évalué à 10.

    J'entends parler de ce monsieur depuis au moins 20 ans. Je le connaissais surtout pour QEMU. Si je ne me suis pas trompé dans mes recherches, la première dépêche le mentionnant date de 2002 et parle de FFMPEG.

    Sa page Wikipédia donne une liste abracadabrantesque de réalisations, entre autres :

    • Formule de Bellard pour calculer PI (43% plus rapide que la formule précédente qu'il a améliorée)
    • Record du monde de calcul de PI… sur un PC de moins de 3 000 € !
    • Trois fois champion du International Obfuscated C Code Contest
    • A développé FFMPEG, QEMU, QuickJS, Tiny C Compiler, un émulateur PC en JS, un émetteur TNT via une carte VGA, ainsi qu'un tas d'autres applications.

    Nec spe, nec metu

  • # Avec perte

    Posté par  . Évalué à 6.

    Je trouverai drôle un outil de compression de texte avec perte. Un peu sous la forme de résumé que peuvent faire les outils comme chatgpt (sauf que là il s'agit de garder le même narrateur). Tu lui dis combien tu veux gagner et il simplifie ce qui lui paraît moins important.

    https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.