Rendu très célèbre par l'interface conversationnelle ChatGPT, le modèle GPT-3.5 est en passe d'être remplacé par GPT-4, dont le déploiement commence aujourd'hui.
D'après ses auteurs, en conversation basique, la différence entre les modèles est subtile. Elle devient apparente quand la complexité de la tâche demandée dépasse un certain niveau.
Concrètement par exemple, là où GPT-3.5 obtenait des scores d'examen parmi les 10% les plus bas, GPT-4 tend plutôt à se situer dans les 10% des meilleures notes.
De plus, le modèle est capable de prendre en entrée non seulement un texte pur, mais également des images. Actuellement en test interne, l'exemple donné est édifiant : l'utilisateur demande ce qu'il y a de drôle dans une image qu'il a fourni (photomontage d'un câble VGA "branché" sur un smartphone), et ChatGPT "comprend" et explique l'absurdité de la situation.
Autre nouveauté, la possibilité de personnaliser le style de réponse de ChatGPT (verbosité, ton et style). Dans l'exemple donné, l'utilisateur demande à ChatGPT de répondre comme un professeur, sans jamais donner la réponse, mais en posant des questions pour aider l'étudiant à avancer dans l'analyse et la résolution d'un problème de math.
Certains problèmes rencontrés avec GPT-3.5 sont toujours présents, notamment le fait que les réponses ne sont pas toujours fiables et que le modèle peut "halluciner" des faits manquants et faire des erreurs de raisonnement. Ces "hallucinations" ont toutefois été significativement réduites avec GPT-4.
La gestion des risques (fournir des conseils dangereux, du code défectueux ou des informations incorrectes) a également été améliorée. Par exemple, ChatGPT va jusqu'à refuser de décrire les étapes conceptuelles pour la création d'une bombe. À l'inverse il va guider un utilisateur qui cherche des cigarettes pas chères vers des solutions légales, plutôt que se contenter de lui rappeler le mauvais effet sur la santé. Toutefois il reste possible de "s'évader" et d'obtenir ce genre d'informations, mais c'est devenu nettement plus difficile.
Pour obtenir ce résultat, l'entraînement du modèle a été significativement amélioré. Outre les ressources immenses mises en œuvre (d'autres articles parlent de cluster de dizaines de milliers de GPU), la prédiction de diverses métriques du modèle final a été améliorée, les chercheurs peuvent ainsi en avoir une bonne approximation tout en ne mettant en œuvre que 1000 à 10 000 fois moins de ressources.
Tout cela est bien sûr propriétaire, l'accès à GPT-4 sera dans un premier temps réservé aux abonnés à ChatGPT Plus, ainsi qu'aux développeurs inscrits sur liste d'attente (l'API étant payante).
Toutefois, à l'occasion de cette mise à disposition, OpenAI annonce également la mise en open-source d'Evals, un framework logiciel pour créer et exécuter des benchmarks pour évaluer des modèles tels que GPT-4. Outre les chercheurs qui travaillent sur la qualité de ces modèles, cela peut intéresser des clients utilisateurs de l'API qui veulent évaluer la qualité des contenus produits.
C'est marrant, il y a un easter egg sur la page. Quand on se met en mode lecture, on trouve un petit exemple de conversation entre un utilisateur et ChatGPT.
# Vague résumé
Posté par Boa Treize (site web personnel) . Évalué à 10.
Rendu très célèbre par l'interface conversationnelle ChatGPT, le modèle GPT-3.5 est en passe d'être remplacé par GPT-4, dont le déploiement commence aujourd'hui.
D'après ses auteurs, en conversation basique, la différence entre les modèles est subtile. Elle devient apparente quand la complexité de la tâche demandée dépasse un certain niveau.
Concrètement par exemple, là où GPT-3.5 obtenait des scores d'examen parmi les 10% les plus bas, GPT-4 tend plutôt à se situer dans les 10% des meilleures notes.
De plus, le modèle est capable de prendre en entrée non seulement un texte pur, mais également des images. Actuellement en test interne, l'exemple donné est édifiant : l'utilisateur demande ce qu'il y a de drôle dans une image qu'il a fourni (photomontage d'un câble VGA "branché" sur un smartphone), et ChatGPT "comprend" et explique l'absurdité de la situation.
Autre nouveauté, la possibilité de personnaliser le style de réponse de ChatGPT (verbosité, ton et style). Dans l'exemple donné, l'utilisateur demande à ChatGPT de répondre comme un professeur, sans jamais donner la réponse, mais en posant des questions pour aider l'étudiant à avancer dans l'analyse et la résolution d'un problème de math.
Certains problèmes rencontrés avec GPT-3.5 sont toujours présents, notamment le fait que les réponses ne sont pas toujours fiables et que le modèle peut "halluciner" des faits manquants et faire des erreurs de raisonnement. Ces "hallucinations" ont toutefois été significativement réduites avec GPT-4.
La gestion des risques (fournir des conseils dangereux, du code défectueux ou des informations incorrectes) a également été améliorée. Par exemple, ChatGPT va jusqu'à refuser de décrire les étapes conceptuelles pour la création d'une bombe. À l'inverse il va guider un utilisateur qui cherche des cigarettes pas chères vers des solutions légales, plutôt que se contenter de lui rappeler le mauvais effet sur la santé. Toutefois il reste possible de "s'évader" et d'obtenir ce genre d'informations, mais c'est devenu nettement plus difficile.
Pour obtenir ce résultat, l'entraînement du modèle a été significativement amélioré. Outre les ressources immenses mises en œuvre (d'autres articles parlent de cluster de dizaines de milliers de GPU), la prédiction de diverses métriques du modèle final a été améliorée, les chercheurs peuvent ainsi en avoir une bonne approximation tout en ne mettant en œuvre que 1000 à 10 000 fois moins de ressources.
Tout cela est bien sûr propriétaire, l'accès à GPT-4 sera dans un premier temps réservé aux abonnés à ChatGPT Plus, ainsi qu'aux développeurs inscrits sur liste d'attente (l'API étant payante).
Toutefois, à l'occasion de cette mise à disposition, OpenAI annonce également la mise en open-source d'Evals, un framework logiciel pour créer et exécuter des benchmarks pour évaluer des modèles tels que GPT-4. Outre les chercheurs qui travaillent sur la qualité de ces modèles, cela peut intéresser des clients utilisateurs de l'API qui veulent évaluer la qualité des contenus produits.
# Easter Egg
Posté par sobriquet . Évalué à 2.
C'est marrant, il y a un easter egg sur la page. Quand on se met en mode lecture, on trouve un petit exemple de conversation entre un utilisateur et ChatGPT.
[^] # Re: Easter Egg
Posté par Boa Treize (site web personnel) . Évalué à 5.
Ce n'est pas un easter egg, cet exemple est bien présent au milieu de l'article.
Manifestement tout le reste de l'article, en apparence pourtant normal, ne survit pas à un passage en mode lecture.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.