Attention, ne pas toujours se fier sur ArXiv (en fait, normalement, il ne faut pas)
"Attention is all you need" et "Deep reinforcement learning from human preferences" ont été publié à NIPS 2017, et "Language Models are Few-Shot Learners" à Neurips 2020 donc un peu validé quand même. C'est pas un journal comme JMLR, mais bon, c'est un peu mieux qu'un preprint comme ArXiv.
Si effectivement c'est très rare d'avoir des jeux de données libre, le fait de ne pas imposer que le jeux de données soit libre pour avoir un modèle libre est une erreur.
Selon moi, il est impossible d'avoir un vrai modèle libre sans que les données soient libres. Selon Wikipedia, "Un logiciel libre est un logiciel dont l'utilisation, l'étude, la modification et la duplication par autrui en vue de sa diffusion sont permises, techniquement et juridiquement1, ceci afin de garantir certaines libertés induites, dont le contrôle du programme par l'utilisateur et la possibilité de partage entre individus. ". Or il est impossible d'étudier complètement un modèle dont ses biais sans avoir accès à ses données d’entraînement. Il est très difficile de pouvoir sortir de bonne explications des résultats sans les données. Donc, pas de données, ça réduit la portée "libre". Et c'est ça que je trouve très dommage dans cette définition.
C'est effectivement un excellent point. Même si c'est sûr qu'être intégré dans une distribution n'est absolument pas l'objectif. Je fais ça pour le plaisir de le faire et pas du tout pour le résultat.
Par contre, et même si j'ai personnellement de nombreuses réserves sur le concept de licence, cela m'a fait réfléchir et je vais très certainement prioriser pour la prochaine version de générer des assets "perso" (et libre) même si la qualité visuelle diminuera probablement de manière drastique :)
Je viens de découvrir qu'effectivement les licences CC ne sont pas adaptés au code, je vais donc changer la licence pour le petit jeu en Basic.
Pour l'image du plateau, c'est effectivement une préoccupation que j'ai. Je ne ferai clairement pas ça pour d'autre jeux mais dans ce cas, je tente ma chance pour les premières préversions pour plusieurs raisons. Les images sont accessibles sur internet sans trop chercher, Gildas Sagot est malheureusement décédé en 2018 :( et trouver qui possède le copyright de Jeux et Stratégie semble être très complexe à cause des rachats successifs. Alors, je suis d'accord que ça ne justifie rien mais c'est aussi pour ça que j'ai mis la clause NC. Si un jour j'ai un message d'un ayant droit, cela ne me dérangera pas de retirer les images (Et en vrai c'est prévu pour la version 1.0 et sûrement avant mais je suis nul en graphisme) et/ou de négocier avec eux pour une utilisation. En vrai, j'attends qu'ils viennent.
Bref, à suivre, je vous tiendrais au courant s'il y a du développement en ce sens.
Suberbe dépèche que je n'ai pas eu le temps de lire tout en détail, mais que je lirai à tête reposée.
Petit point de détail avant de créer votre projet et d'aller trop loin dans le développement si vous pensez le publier sur Pypi. Ne faites pas comme moi et vérifiez sur Pypi si le nom n'est pas déjà pris par un vieux projet mis à jour une fois il y a 10 ans et abandonné depuis, et pas seulement sur test-pypi. :) Sinon vous allez vous retrouver à devoir changer le nom de votre projet alors que toute la doc et tous les tests sont faits et que vous aviez passé des jours à trouver un nom super cool !
En fait, l'intégration de Dask m'a fait me poser des questions sur l'optimisation du code avec Pandas. L'origine est qu'un collègue est venu me voir en disant que le datasets ne rentrait pas en mémoire avec pandas. J'avoue que je n'ai pas vérifié son code et mon premier réflexe a été de lui dire : "Utilise Dask'. À l'époque on avait qu'un petit serveur de calcul avec 16Go de RAM, et plusieurs utilisateurs en même temps à faire apprendre des modèles, pour un dataset d'environ 7-8Go. On a donc utilisé Dask et ça a marché un temps jusqu'à avoir le vrai serveur de calcul avec 64Go de RAM. A ce moment Dask est devenu inutile.
Puis, je suis tombé sur ça : https://www.dataquest.io/blog/pandas-big-data/ Et là ma vision a changé. En fait, on aurait surement pas eu besoin de Dask mais d'un peu d'optimisation avec Pandas. Donc, mon expérience avec Dask est mitigée pour l'instant mais je pense que j'aurais l'occasion de tester plus tard avec des plus gros datasets.
Donc pour répondre à ta question : ça dépend de la machine que tu utilises :)
Bon article qui m'a fait pensé que lorsque je suis passé de Pandas à Dask pour pouvoir gérer de plus grands datasets, je me suis heurter à un petit problème de conception. Lorsque j'ai écrit mon code pour Pandas, je l'avais fait sous forme impérative/procédurale en gardant un paquet de variables temporaires. Le problème en passant à Dask est que le calcul ne se fait qu'à la fin sur le .compute(). Et ça ma causé pas mal de soucis car j'avais besoin de faire des .compute() un peu partout dans mon code, ce qui enlève tout l’intérêt de Dask.
C'est pour ça que lorsqu'on utilise des packages comme Dask, il faut écrire en procédural mais penser en fonctionnel et ça, ça demande une gymnastique mentale a laquelle je n'étais pas habitué.
As tu eu des cas comme ça dans ton expérience de programmation python ?
Sinon, dernière petite question: 'Apprentissage en profondeur', je ne connaissais pas cette traduction. C'est effectivement répertorié dans les quelques glossaires que je connais (DataFranca , Termium). Est ce que c'est beaucoup utilisé comme terme ?
[^] # Re: Buts "non-alignés"
Posté par Julien Laumonier . En réponse au journal Je suis perdu et je pensais m'être renseigné.... Évalué à 2 (+2/-0).
Attention, ne pas toujours se fier sur ArXiv (en fait, normalement, il ne faut pas)
"Attention is all you need" et "Deep reinforcement learning from human preferences" ont été publié à NIPS 2017, et "Language Models are Few-Shot Learners" à Neurips 2020 donc un peu validé quand même. C'est pas un journal comme JMLR, mais bon, c'est un peu mieux qu'un preprint comme ArXiv.
[^] # Re: Any purpose
Posté par Julien Laumonier . En réponse au journal L'OSI publie une définition de l'IA "opensource"... mais pas trop?. Évalué à 0.
Si effectivement c'est très rare d'avoir des jeux de données libre, le fait de ne pas imposer que le jeux de données soit libre pour avoir un modèle libre est une erreur.
Selon moi, il est impossible d'avoir un vrai modèle libre sans que les données soient libres. Selon Wikipedia, "Un logiciel libre est un logiciel dont l'utilisation, l'étude, la modification et la duplication par autrui en vue de sa diffusion sont permises, techniquement et juridiquement1, ceci afin de garantir certaines libertés induites, dont le contrôle du programme par l'utilisateur et la possibilité de partage entre individus. ". Or il est impossible d'étudier complètement un modèle dont ses biais sans avoir accès à ses données d’entraînement. Il est très difficile de pouvoir sortir de bonne explications des résultats sans les données. Donc, pas de données, ça réduit la portée "libre". Et c'est ça que je trouve très dommage dans cette définition.
[^] # Re: cool
Posté par Julien Laumonier . En réponse au journal Un jeu vidéo en encart de Jeux et Stratégies : Le Sceptre Maudit v0.2. Évalué à 2.
C'est effectivement un excellent point. Même si c'est sûr qu'être intégré dans une distribution n'est absolument pas l'objectif. Je fais ça pour le plaisir de le faire et pas du tout pour le résultat.
Par contre, et même si j'ai personnellement de nombreuses réserves sur le concept de licence, cela m'a fait réfléchir et je vais très certainement prioriser pour la prochaine version de générer des assets "perso" (et libre) même si la qualité visuelle diminuera probablement de manière drastique :)
[^] # Re: cool
Posté par Julien Laumonier . En réponse au journal Un jeu vidéo en encart de Jeux et Stratégies : Le Sceptre Maudit v0.2. Évalué à 4.
Ah ben, merci pour les commentaires !
Je viens de découvrir qu'effectivement les licences CC ne sont pas adaptés au code, je vais donc changer la licence pour le petit jeu en Basic.
Pour l'image du plateau, c'est effectivement une préoccupation que j'ai. Je ne ferai clairement pas ça pour d'autre jeux mais dans ce cas, je tente ma chance pour les premières préversions pour plusieurs raisons. Les images sont accessibles sur internet sans trop chercher, Gildas Sagot est malheureusement décédé en 2018 :( et trouver qui possède le copyright de Jeux et Stratégie semble être très complexe à cause des rachats successifs. Alors, je suis d'accord que ça ne justifie rien mais c'est aussi pour ça que j'ai mis la clause NC. Si un jour j'ai un message d'un ayant droit, cela ne me dérangera pas de retirer les images (Et en vrai c'est prévu pour la version 1.0 et sûrement avant mais je suis nul en graphisme) et/ou de négocier avec eux pour une utilisation. En vrai, j'attends qu'ils viennent.
Bref, à suivre, je vous tiendrais au courant s'il y a du développement en ce sens.
[^] # Re: paint.net
Posté par Julien Laumonier . En réponse au journal Portal: Revolution remercie Gimp, Blender et d'autres. Évalué à 8.
Ça existe une licence qui interdit les remerciements ? :) Une CC FBY : Forbiden Credit :) C'est un concept.
# Publication sur Pypi
Posté par Julien Laumonier . En réponse à la dépêche L'installation et la distribution de paquets Python (2/4). Évalué à 6.
Suberbe dépèche que je n'ai pas eu le temps de lire tout en détail, mais que je lirai à tête reposée.
Petit point de détail avant de créer votre projet et d'aller trop loin dans le développement si vous pensez le publier sur Pypi. Ne faites pas comme moi et vérifiez sur Pypi si le nom n'est pas déjà pris par un vieux projet mis à jour une fois il y a 10 ans et abandonné depuis, et pas seulement sur test-pypi. :) Sinon vous allez vous retrouver à devoir changer le nom de votre projet alors que toute la doc et tous les tests sont faits et que vous aviez passé des jours à trouver un nom super cool !
[^] # Re: Pandas/Dask et programmation fonctionnelle
Posté par Julien Laumonier . En réponse au journal L/D·es différents paradigmes de programmation en Python. Évalué à 1.
Je comprends pour la traduction :)
En fait, l'intégration de Dask m'a fait me poser des questions sur l'optimisation du code avec Pandas. L'origine est qu'un collègue est venu me voir en disant que le datasets ne rentrait pas en mémoire avec pandas. J'avoue que je n'ai pas vérifié son code et mon premier réflexe a été de lui dire : "Utilise Dask'. À l'époque on avait qu'un petit serveur de calcul avec 16Go de RAM, et plusieurs utilisateurs en même temps à faire apprendre des modèles, pour un dataset d'environ 7-8Go. On a donc utilisé Dask et ça a marché un temps jusqu'à avoir le vrai serveur de calcul avec 64Go de RAM. A ce moment Dask est devenu inutile.
Puis, je suis tombé sur ça : https://www.dataquest.io/blog/pandas-big-data/ Et là ma vision a changé. En fait, on aurait surement pas eu besoin de Dask mais d'un peu d'optimisation avec Pandas. Donc, mon expérience avec Dask est mitigée pour l'instant mais je pense que j'aurais l'occasion de tester plus tard avec des plus gros datasets.
Donc pour répondre à ta question : ça dépend de la machine que tu utilises :)
Julien
# Pandas/Dask et programmation fonctionnelle
Posté par Julien Laumonier . En réponse au journal L/D·es différents paradigmes de programmation en Python. Évalué à 4.
Bon article qui m'a fait pensé que lorsque je suis passé de Pandas à Dask pour pouvoir gérer de plus grands datasets, je me suis heurter à un petit problème de conception. Lorsque j'ai écrit mon code pour Pandas, je l'avais fait sous forme impérative/procédurale en gardant un paquet de variables temporaires. Le problème en passant à Dask est que le calcul ne se fait qu'à la fin sur le .compute(). Et ça ma causé pas mal de soucis car j'avais besoin de faire des .compute() un peu partout dans mon code, ce qui enlève tout l’intérêt de Dask.
C'est pour ça que lorsqu'on utilise des packages comme Dask, il faut écrire en procédural mais penser en fonctionnel et ça, ça demande une gymnastique mentale a laquelle je n'étais pas habitué.
As tu eu des cas comme ça dans ton expérience de programmation python ?
Sinon, dernière petite question: 'Apprentissage en profondeur', je ne connaissais pas cette traduction. C'est effectivement répertorié dans les quelques glossaires que je connais (DataFranca , Termium). Est ce que c'est beaucoup utilisé comme terme ?