tag:linuxfr.org,2005:/tags/analyse/publicLinuxFr.org : les contenus étiquetés avec « analyse »2024-03-18T17:16:14+01:00/favicon.pngtag:linuxfr.org,2005:News/419262024-03-16T20:26:25+01:002024-03-16T20:26:25+01:00Ubix Linux, le datalab de pocheLicence CC By‑SA http://creativecommons.org/licenses/by-sa/4.0/deed.fr<div><p><strong>Ubix Linux</strong> est une distribution Linux libre et open-source dérivée de Debian. </p>
<p>Le nom « Ubix » est la forme contractée de « Ubics », acronyme issu de l'anglais <em><strong>U</strong>niversal <strong>b</strong>usiness <strong>i</strong>ntelligence <strong>c</strong>omputer <strong>s</strong>ystem</em>. De fait, le principal objectif d'<strong>Ubix Linux</strong> est d'offrir une plateforme universelle dédiée à l'informatique décisionnelle et à l'analyse des données.</p>
<p>Il s'agit d'une solution verticale, prête à l'emploi, dédiée à la manipulation des données et à la prise de décision. Allégée par conception, elle n'embarque qu'un jeu limité d'outils spécialisés dans ce domaine. Ceux-ci permettent néanmoins de couvrir tous les besoins dont l'acquisition, la transformation, l'analyse et la présentation des données.</p>
</div><ul><li>lien nᵒ 1 : <a title="https://ubix-linux.sourceforge.io/en" hreflang="en" href="https://linuxfr.org/redirect/113562">Site officiel anglophone</a></li><li>lien nᵒ 2 : <a title="https://ubix-linux.sourceforge.io/fr" hreflang="fr" href="https://linuxfr.org/redirect/113563">Site officiel francophone</a></li><li>lien nᵒ 3 : <a title="https://mastodon.social/@ubix" hreflang="en" href="https://linuxfr.org/redirect/113564">Mastodon mastodon.social/@ubix</a></li><li>lien nᵒ 4 : <a title="https://www.reddit.com/r/UbixLinux/" hreflang="en" href="https://linuxfr.org/redirect/113565">Reddit /r/UbixLinux/</a></li></ul><div><p><img src="//img.linuxfr.org/img/68747470733a2f2f756269782d6c696e75782e736f75726365666f7267652e696f2f757365722f70616765732f30312e686f6d652f30332e5f73637265656e73686f742f73637265656e73686f742e6f766572766965772e706e67/screenshot.overview.png" alt="Ubix Linux - Vue d'ensemble" title="Source : https://ubix-linux.sourceforge.io/user/pages/01.home/03._screenshot/screenshot.overview.png"></p>
<h2 id="toc-origines-de-la-distribution">Origines de la distribution</h2>
<p>La volonté initiale du concepteur de la distribution était de pouvoir disposer, à tout moment et en toutes circonstances, des outils lui permettant de réaliser des analyses de données et d'en présenter le résultat <em>ad hoc</em>. Ce « couteau suisse » de manipulation des données, devait également lui permettre d'éviter de devoir justifier, rechercher, acquérir et installer l'écosystème logiciel nécessaire chaque fois que ce type de tâches se présentait à lui.</p>
<p>Son cahier des charges stipulait donc une empreinte disque la plus faible possible sans pour autant faire de concessions au niveau des fonctionnalités. La distribution se devait d'être portable et exécutable immédiatement dans des contextes variés, sans nécessité d'investissement, d'installation ou de droits d'accès particulier.</p>
<p>De ce fait, <strong>Ubix Linux</strong> ne se démarque pas par ses aspects « système », mais plutôt par sa destination et ses cas d'usage.</p>
<h2 id="toc-au-delà-du-besoin-initial-">Au-delà du besoin initial </h2>
<p>À l'heure où de nombreux concepts liés à la manipulation des données tels que le « Big Data », la « Data Science » ou le « Machine Learning » font la une de nombreux médias, ceux-ci restent encore des boîtes noires, affaire de spécialistes et d'organisation disposant des moyens de les mettre en application.</p>
<p>Si le grand public en intègre de mieux en mieux les grandes lignes, il ne dispose encore que de peu de recul sur la manière dont ses données peuvent être utilisées, ainsi que la richesse des débouchés associés.</p>
<p>D'un autre côté, de nombreux gisements de données à la portée du plus grand nombre demeurent inexploités, faute de compétences ou de moyens facilement accessibles.</p>
<p>Il se trouve qu'<strong>Ubix Linux</strong> peut permettre de surmonter cette difficulté, en offrant à tous les moyens de s'approprier (ou se réapproprier) et tirer parti des données disponibles.</p>
<h2 id="toc-philosophie">Philosophie</h2>
<p>Par nécessité, <strong>Ubix Linux</strong> a été conçue en intégrant uniquement des produits libres et open-source. Bien que cette distribution puisse s'avérer utile à toute personne devant manipuler des données, elle se doit de préserver et défendre une approche pédagogique et universaliste. </p>
<p>Elle a pour ambition de mettre les sciences de données à la portée de tous. La distribution en elle-même n'est qu'un support technique de base devant favoriser l'apprentissage par la pratique. Il est prévu de l'accompagner d'un tutoriels progressifs.</p>
<p>Les outils low-code/no-code intégrés dans la distribution permettent de commencer à manipuler des données sans devoir maîtriser au préalable la programmation. Néanmoins, des outils plus avancés permettent ensuite de s'initier aux principes des algorithmes d'apprentissage automatique.</p>
<h2 id="toc-synthèse">Synthèse</h2>
<p><strong>Ubix Linux</strong> s'inscrit dans la philosophie du logiciel libre et plus particulièrement dans celle des projets GNU et Debian. </p>
<p>Elle se destine à :</p>
<ul>
<li>demeurer accessible à tous ;</li>
<li>pouvoir s'exécuter sur des configurations matérielles relativement modestes, voire n'être installée que sur un périphérique portable USB ;</li>
<li>proposer un outil pédagogique pour appréhender de façon pratique la science des données et l'apprentissage machine ;</li>
<li>permettre la découverte, l'expérimentation et l'aguerrissement de tout un chacun aux principaux outils de manipulation des données ;</li>
<li>offrir une boîte à outils légère et agile, néanmoins complète et utile pour un public professionnel averti.</li>
</ul>
<h2 id="toc-et-après">Et après…</h2>
<p>Nous sommes à l'écoute de toute suggestion. Toutefois, les moyens étant ce qu'ils sont (au fond du garage), la réactivité à les prendre en compte pourra s'avérer inversement proportionnelle.</p>
<p>Nous souhaiterions que cet outil pédagogique puisse bénéficier au plus grand nombre : si vous voulez contribuer à la traduction du contenu du site officiel en espagnol, en portugais ou en allemand, vous êtes les bienvenus.</p>
</div><div><a href="https://linuxfr.org/news/ubix-linux-le-datalab-de-poche.epub">Télécharger ce contenu au format EPUB</a></div> <p>
<strong>Commentaires :</strong>
<a href="//linuxfr.org/nodes/135123/comments.atom">voir le flux Atom</a>
<a href="https://linuxfr.org/news/ubix-linux-le-datalab-de-poche#comments">ouvrir dans le navigateur</a>
</p>
AngstelBenoît SibaudPierre JarillonJulien JorgeArkemhttps://linuxfr.org/nodes/135123/comments.atomtag:linuxfr.org,2005:Bookmark/71872023-09-19T12:29:33+02:002023-09-19T12:29:33+02:00Quick insights using sqlelf<a href="https://fzakaria.com/2023/09/11/quick-insights-using-sqlelf.html">https://fzakaria.com/2023/09/11/quick-insights-using-sqlelf.html</a> <p>
<strong>Commentaires :</strong>
<a href="//linuxfr.org/nodes/133363/comments.atom">voir le flux Atom</a>
<a href="https://linuxfr.org/users/gilcot/liens/quick-insights-using-sqlelf#comments">ouvrir dans le navigateur</a>
</p>
Gil Cot ✔https://linuxfr.org/nodes/133363/comments.atomtag:linuxfr.org,2005:Bookmark/62432023-04-07T03:26:14+02:002023-04-07T03:26:14+02:00Livre : "Dette technique" (2015, republié sous cc by-nc-sa)<a href="https://bastien.jaillot.fr/dette-technique-le-livre/">https://bastien.jaillot.fr/dette-technique-le-livre/</a> <p>
<strong>Commentaires :</strong>
<a href="//linuxfr.org/nodes/130856/comments.atom">voir le flux Atom</a>
<a href="https://linuxfr.org/users/bubar/liens/livre-dette-technique-2015-republie-sous-cc-by-nc-sa#comments">ouvrir dans le navigateur</a>
</p>
bubar🦥https://linuxfr.org/nodes/130856/comments.atomtag:linuxfr.org,2005:Post/428842022-05-12T08:59:13+02:002022-05-12T21:46:10+02:00application de convention d'écriture<p>Bonjour à tous,<br>
je suis à la recherche d'un ou plusieurs outils pour donner à l'utilisateur la possibilité de vérifier que son code est conforme et pourra être déposé sur notre dépôt git. </p>
<h2 id="toc-contexte">contexte</h2>
<p>Je travaille sur le développement d'un logiciel d'acquisition, visualisation, analyse et diagnostic de données provenant du système d'acquisition d'un imageur médical. Jusqu'à présent je travaillais seul sur ce projet, mais à l'avenir des collègues vont me prêter main forte car le projet commence à grossir et les demandes utilisateurs aussi :) C'est évidement une excellente nouvelle !</p>
<p>Comme je travaillais seul, j'avais la quasi-certitude que les conventions étaient respectées; je connais bien le dev et sa rigueur personnelle :) Mais maintenant que l'équipe grossit il faut mettre en place des outils pour s'assurer de la cohérence du code. </p>
<p>Le projet est écrit en c++ et utilise Qt et root (cern).</p>
<p>Pour la mise en forme du code j'utilise clang-format. Ça, c'est carrément un outil génial et qui marche bien. Je suis parfois bluffé par sa puissance.</p>
<p>J'utilise aussi cppcheck pour faire de l'analyse statique de code. </p>
<p>Il n'y a pas de code coverage et le code est versionné avec git/gitlab.</p>
<h2 id="toc-ma-recherche">ma recherche</h2>
<p>Je cherche un outil qui me permette de mettre en place des règles simples et peu nombreuses dont voici un sous ensemble.<br>
* snake_case PARTOUT (nom de fichier, variable, fonction, classe, enum… TOUT !!!)<br>
* pas de préfixe my<br>
* extension des fichiers<br>
* nom des fichiers <br>
* utilisation de caractères ascii (regexp [a-z0-9])</p>
<p>J'ai fait des recherches, mais je ne converge pas vraiment et c'est pour ça que je me permets de venir vous voir pour trouver de l'aide.</p>
<p>Je vous remercie d'avance pour votre aide.</p>
<p>Olivier </p>
<div><a href="https://linuxfr.org/forums/programmation-c/posts/application-de-convention-d-ecriture.epub">Télécharger ce contenu au format EPUB</a></div> <p>
<strong>Commentaires :</strong>
<a href="//linuxfr.org/nodes/127719/comments.atom">voir le flux Atom</a>
<a href="https://linuxfr.org/forums/programmation-c/posts/application-de-convention-d-ecriture#comments">ouvrir dans le navigateur</a>
</p>
Olivier LEMAIREhttps://linuxfr.org/nodes/127719/comments.atomtag:linuxfr.org,2005:Bookmark/42632022-02-08T17:19:15+01:002022-02-08T17:19:15+01:00Analyse les problèmes de vie privée dans les applications Android.<a href="https://exodus-privacy.eu.org/fr/">https://exodus-privacy.eu.org/fr/</a> <p>
<strong>Commentaires :</strong>
<a href="//linuxfr.org/nodes/126849/comments.atom">voir le flux Atom</a>
<a href="https://linuxfr.org/users/hitmanu/liens/analyse-les-problemes-de-vie-privee-dans-les-applications-android#comments">ouvrir dans le navigateur</a>
</p>
hitmanuhttps://linuxfr.org/nodes/126849/comments.atomtag:linuxfr.org,2005:Diary/384272019-03-27T23:14:42+01:002019-03-29T11:38:55+01:00Bibliothèques Python utiles à l'analyse des donnéesLicence CC By‑SA http://creativecommons.org/licenses/by-sa/4.0/deed.fr<h2 class="sommaire">Sommaire</h2>
<ul class="toc">
<li><a href="#toc-dash">Dash</a></li>
<li><a href="#toc-ipyvolume">IPyvolume</a></li>
<li><a href="#toc-pyviz">Pyviz</a></li>
<li><a href="#toc-chartify">Chartify</a></li>
<li><a href="#toc-flashtext">FlashText</a></li>
<li><a href="#toc-fuzzywuzzy">FuzzyWuzzy</a></li>
<li><a href="#toc-pendulum">Pendulum</a></li>
<li><a href="#toc-wget">Wget</a></li>
<li><a href="#toc-imbalanced-learn">Imbalanced-learn</a></li>
<li><a href="#toc-pyflux">PyFlux</a></li>
<li><a href="#toc-pyfts">pyFTS</a></li>
<li><a href="#toc-deap">DEAP</a></li>
</ul>
<p>Si vous réalisez des analyses de données à l’aide de Python sans doute connaissez-vous bien et utilisez-vous les bibliothèques pandas, scikit-learn, TensorFlow, Keras, matplotlib et quelques autres. Dans cet <a href="https://opensource.com/article/18/11/python-libraries-data-science">article-là</a>, des bibliothèques un peu moins connues sont présentées avec comment les installer si nécessaire et avec des exemples.</p>
<p>Je vous aurais bien traduit l’article, mais je ne suis pas certain qu’il soit en licence libre. Je reprends dans le désordre la liste suggérée par l’article, je vous dis quelques mots sur chacune des bibliothèques et si ce teasing vous met l’eau à la bouche, vous pourrez toujours consulter l’article susmentionné. Néanmoins, vous n’y retrouverez pas toutes les bibliothèques que je mentionne vu que je me suis permis d’en ajouter quelques-unes.</p>
<p>Si vous ne connaissez rien à l’analyse des données avec Python (et que cela vous intéresse), je ne peux que vous conseiller <a href="//linuxfr.org/news/python-pour-les-sciences-une-presentation">l’excellente dépêche d’un super site consacré à linux</a>.</p>
<p><em>Commençons pas les représentations graphiques.</em></p>
<h2 id="toc-dash">Dash</h2>
<p><a href="https://plot.ly/products/dash/">Dash</a> permet la création d’applications web de visualisation avec des menus déroulants, des curseurs et des graphiques à partir de Python sans devoir passer par JavaScript. À mon stade de connaissance, j’ai du mal à voir les différences avec ce que permet <a href="https://bokeh.pydata.org/en/latest/">Bokeh</a>.</p>
<h2 id="toc-ipyvolume">IPyvolume</h2>
<p>Si vous voulez réaliser des représentations en 3D, un coup d’œuil à <a href="https://ipyvolume.readthedocs.io/en/latest/?badge=latest">IPyvolume</a> est sans doute indiqué. IPyvolume permet de visualiser des volumes ainsi que des glyphes en 3D dans le notebook Jupyter. Pour l’instant, cela semble être une bibliothèque en version bêta, donc potentiellement avec des bugs plus nombreux que pour une bibliothèque mature.</p>
<h2 id="toc-pyviz">Pyviz</h2>
<p><a href="http://pyviz.org/">Pyviz</a> n’est pas une bibliothèque en soit mais pour ce qui concerne la visualisation, il s’agit certainement d’un portail intéressant à visiter. L’objectif de PyViz est de rendre la visualisation des données en Python plus facile à utiliser, plus facile à apprendre et plus puissante (rien que ça :-)).</p>
<p>Vous y trouverez notamment (en anglais)<br>
- Des outils qui facilitent l’application des bibliothèques Python de visualisation à vos données.<br>
- Un tutoriel complet montrant comment utiliser simultanément les outils disponibles pour effectuer un large éventail de tâches.<br>
- Des exemples d'ensembles de données à utiliser.</p>
<h2 id="toc-chartify">Chartify</h2>
<p>Quand Spotify Labs écrit des bibliothèques cela donne <a href="https://github.com/spotify/chartify/">Chartify</a>. Cette bibliothèque est construite sur Bokeh et semble surtout permettre d’utiliser Bokeh de manière plus user friendly et de manière moins fastidieuse. J’imagine que cela se fait au prix de la flexibilité.</p>
<p><em>Mais peut-être aurais-je dû débuter par des bibliothèques qui aident aux nettoyages des bases de données.</em></p>
<h2 id="toc-flashtext">FlashText</h2>
<p>Pour assurer un traitement du langage naturel (NLP), un nettoyage préalable des données textuelles est souvent nécessaire notamment en effectuant le remplacement de mots-clés ou l'extraction de mots-clés dans les phrases. Habituellement, de telles opérations peuvent être accomplies avec des expressions régulières, mais elles peuvent devenir laborieuses si le nombre de termes à rechercher se compte par milliers.</p>
<p>Le module FlashText de Python fournirait une solution appropriée pour de telles situations. L’avantage principal de FlashText est que le temps d’exécution est le même quel que soit le nombre de termes de recherche (j’ai un peu de mal à y croire mais c’est effectivement <a href="https://pypi.org/project/flashtext/">ce qu’il semble prétendre</a> en comparant leur performance avec celle de la bibliothèque re).</p>
<h2 id="toc-fuzzywuzzy">FuzzyWuzzy</h2>
<p><a href="https://github.com/seatgeek/fuzzywuzzy">FussyWuzzy</a>, et plus d'explication en mots <a href="https://chairnerd.seatgeek.com/fuzzywuzzy-fuzzy-string-matching-in-python/">ici</a>, est une bibliothèque utile quand il s'agit d’évaluer des correspondances de chaînes de caractères. FuzzyWuzzy serait également pratique pour comparer des enregistrements conservés dans différentes bases de données. Techniquement, FuzzyWuzzy utilise la <a href="https://fr.wikipedia.org/wiki/Distance_de_Levenshtein">distance de Levenshtein</a> pour calculer les différences entre les séquences.</p>
<h2 id="toc-pendulum">Pendulum</h2>
<p>La gestion des dates en Python vous frustre, peut-être que <a href="https://pendulum.eustace.io/">Pendulum</a> peut vous aider. C’est une bibliothèque Python pour faciliter les manipulations des dates et des heures. Pour le moment, je n’ai pas été confronté à ce genre de problème, je suis donc bien en peine de mesurer l’intérêt de cette bibliothèque par rapport à la classe Python gérant les dates et heures.</p>
<p><em>Mais avant de nettoyer les données, peut-être faudrait-il les collecter, non ?</em></p>
<h2 id="toc-wget">Wget</h2>
<p><a href="https://pypi.org/project/wget/">Wget</a> est un utilitaire gratuit pour le téléchargement de fichiers depuis le web. Il prend en charge les protocoles HTTP, HTTPS et FTP, ainsi que la récupération via des proxies HTTP. </p>
<p><em>Une fois qu’on a de belles données bien nettoyée, on peut établir des modèles.</em></p>
<h2 id="toc-imbalanced-learn">Imbalanced-learn</h2>
<p>La plupart des algorithmes de classification fonctionnent mieux lorsque le nombre d'échantillons dans chaque classe est similaire. Malheureusement dans la vraie vie réelle, les ensembles de données sont souvent déséquilibrés ce qui peut avoir une incidence sur l’efficacité des algorithmes d'apprentissage automatique. <a href="http://imbalanced-learn.org/en/stable/">Imbalanced-learn</a> a été créée pour s'attaquer à ce problème. Il est compatible avec scikit-learn et fait partie des projets scikit-learn-contrib.</p>
<h2 id="toc-pyflux">PyFlux</h2>
<p>L'analyse des séries chronologiques est l'un des problèmes les plus fréquemment rencontrés dans l'apprentissage machine. Si vous souhaitez aborder ce genre de données avec des approches probabilistes (e.a. les modèles ARIMA, GARCH et VAR), <a href="https://github.com/RJT1990/pyflux">PyFlux</a> est une bibliothèque open source que vous devez considérer (et qui pour info est quelque peu délaissé par son créateur occupé sur d'autres projets).</p>
<h2 id="toc-pyfts">pyFTS</h2>
<p>Vous préférez une approche basée sur les <a href="https://fr.wikipedia.org/wiki/Ensemble_flou">ensembles flous</a> ? <a href="https://pyfts.github.io/pyFTS/">pyFTS</a> est votre <s>homme</s> bibliothèque. Pour une introduction à l’application des ensembles flous à l’analyse des séries temporelles, vous pouvez consulter ce <a href="https://towardsdatascience.com/a-short-tutorial-on-fuzzy-time-series-dcc6d4eb1b15">blog</a>. </p>
<h2 id="toc-deap">DEAP</h2>
<p>Si j’en crois <a href="https://en.wikipedia.org/wiki/DEAP_(software)">Wikipédia</a>, <a href="https://deap.readthedocs.io/en/master/">DEAP</a> (pour Distributed Evolutionary Algorithms in Python) est une bibliothèque de calcul évolutif. Il intègre les structures de données et les outils nécessaires pour mettre en œuvre les techniques de calcul évolutif les plus courantes telles que les algorithmes génétiques, la programmation génétique, les stratégies d’évolution, l’optimisation des essaims de particules, les évolutions différentielles, la circulation et la distribution. Il est développé à l’Université Laval depuis 2009.</p>
<hr>
<p>Personnellement, en préparant ce journal, j'ai découvert pas mal de nouvelles bibliothèques qui pourraient m'être utiles dans le futur. J'espère que cela sera aussi votre cas en le lisant.</p>
<div><a href="https://linuxfr.org/users/tisaac/journaux/bibliotheques-python-utiles-a-l-analyse-des-donnees.epub">Télécharger ce contenu au format EPUB</a></div> <p>
<strong>Commentaires :</strong>
<a href="//linuxfr.org/nodes/116801/comments.atom">voir le flux Atom</a>
<a href="https://linuxfr.org/users/tisaac/journaux/bibliotheques-python-utiles-a-l-analyse-des-donnees#comments">ouvrir dans le navigateur</a>
</p>
tisaachttps://linuxfr.org/nodes/116801/comments.atom