• # Précision

    Posté par  . Évalué à 6. Dernière modification le 25 avril 2024 à 12:53.

    Ce comparatif est souvent donné en référence puisqu'il s'agit d'une évaluation faite par des humains.

    Il faut quand même préciser que selon leur statistiques:
    https://colab.research.google.com/drive/1KdwokPjirkTmpO_P1WByFNFiqxWQquwH#scrollTo=m-eu9nhUqUYB

    90% des "conversations" ne dépassent pas un tour, donc la plupart des gens posent une question, ont une réponse, votent et quittent.
    Ce qui n'est pas représentatif de ce que l'on attends d'un llm au quotidien.
    Et c'est pour ça que des modèles comme Zephyr-7B s'en sortent si bien ici alors qu'en discussion multi tour c'est loin d'être aussi brillant.

    Par ailleurs, la grand majorité des questions se font en anglais et ça ne permet pas de comparer des applications spécifiques pourtant importantes (génération de code, extraction et déduction logique à partir de données, etc..)

    Bref c'est un bon comparatif mais c'est pas parce que c'est jugé par des humains que c'est infaillible.
    En l’occurrence ça juge surtout la capacité des modèle à générer du texte convaincants, la guerre entre llms est de plus en plus porté sur leur autonomie et leur capacité à interagir avec des outils extérieurs.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.