Julien Laumonier a écrit 4 commentaires

  • [^] # Re: paint.net

    Posté par  . En réponse au journal Portal: Revolution remercie Gimp, Blender et d'autres. Évalué à 8.

    Ça existe une licence qui interdit les remerciements ? :) Une CC FBY : Forbiden Credit :) C'est un concept.

  • # Publication sur Pypi

    Posté par  . En réponse à la dépêche L'installation et la distribution de paquets Python (2/4). Évalué à 6.

    Suberbe dépèche que je n'ai pas eu le temps de lire tout en détail, mais que je lirai à tête reposée.

    Petit point de détail avant de créer votre projet et d'aller trop loin dans le développement si vous pensez le publier sur Pypi. Ne faites pas comme moi et vérifiez sur Pypi si le nom n'est pas déjà pris par un vieux projet mis à jour une fois il y a 10 ans et abandonné depuis, et pas seulement sur test-pypi. :) Sinon vous allez vous retrouver à devoir changer le nom de votre projet alors que toute la doc et tous les tests sont faits et que vous aviez passé des jours à trouver un nom super cool !

  • [^] # Re: Pandas/Dask et programmation fonctionnelle

    Posté par  . En réponse au journal L/D·es différents paradigmes de programmation en Python. Évalué à 1.

    Je comprends pour la traduction :)

    En fait, l'intégration de Dask m'a fait me poser des questions sur l'optimisation du code avec Pandas. L'origine est qu'un collègue est venu me voir en disant que le datasets ne rentrait pas en mémoire avec pandas. J'avoue que je n'ai pas vérifié son code et mon premier réflexe a été de lui dire : "Utilise Dask'. À l'époque on avait qu'un petit serveur de calcul avec 16Go de RAM, et plusieurs utilisateurs en même temps à faire apprendre des modèles, pour un dataset d'environ 7-8Go. On a donc utilisé Dask et ça a marché un temps jusqu'à avoir le vrai serveur de calcul avec 64Go de RAM. A ce moment Dask est devenu inutile.

    Puis, je suis tombé sur ça : https://www.dataquest.io/blog/pandas-big-data/ Et là ma vision a changé. En fait, on aurait surement pas eu besoin de Dask mais d'un peu d'optimisation avec Pandas. Donc, mon expérience avec Dask est mitigée pour l'instant mais je pense que j'aurais l'occasion de tester plus tard avec des plus gros datasets.

    Donc pour répondre à ta question : ça dépend de la machine que tu utilises :)

    Julien

  • # Pandas/Dask et programmation fonctionnelle

    Posté par  . En réponse au journal L/D·es différents paradigmes de programmation en Python. Évalué à 4.

    Bon article qui m'a fait pensé que lorsque je suis passé de Pandas à Dask pour pouvoir gérer de plus grands datasets, je me suis heurter à un petit problème de conception. Lorsque j'ai écrit mon code pour Pandas, je l'avais fait sous forme impérative/procédurale en gardant un paquet de variables temporaires. Le problème en passant à Dask est que le calcul ne se fait qu'à la fin sur le .compute(). Et ça ma causé pas mal de soucis car j'avais besoin de faire des .compute() un peu partout dans mon code, ce qui enlève tout l’intérêt de Dask.

    C'est pour ça que lorsqu'on utilise des packages comme Dask, il faut écrire en procédural mais penser en fonctionnel et ça, ça demande une gymnastique mentale a laquelle je n'étais pas habitué.

    As tu eu des cas comme ça dans ton expérience de programmation python ?

    Sinon, dernière petite question: 'Apprentissage en profondeur', je ne connaissais pas cette traduction. C'est effectivement répertorié dans les quelques glossaires que je connais (DataFranca , Termium). Est ce que c'est beaucoup utilisé comme terme ?