LinuxFr.org : les contenus étiquetés avec « analyse »

danslesalgorithmes.net — media piloté par le fondateur d'InternetActu sur la « société des calculs »

2024-09-23T11:31:09+02:00

https://danslesalgorithmes.net/manifeste/

Commentaires : voir le flux Atom ouvrir dans le navigateur

Ubix Linux, le datalab de poche

2024-03-16T20:26:25+01:00

Ubix Linux est une distribution Linux libre et open-source dérivée de Debian.

Le nom « Ubix » est la forme contractée de « Ubics », acronyme issu de l'anglais Universal business intelligence computer system. De fait, le principal objectif d'Ubix Linux est d'offrir une plateforme universelle dédiée à l'informatique décisionnelle et à l'analyse des données.

Il s'agit d'une solution verticale, prête à l'emploi, dédiée à la manipulation des données et à la prise de décision. Allégée par conception, elle n'embarque qu'un jeu limité d'outils spécialisés dans ce domaine. Ceux-ci permettent néanmoins de couvrir tous les besoins dont l'acquisition, la transformation, l'analyse et la présentation des données.

lien nᵒ 1 : Site officiel anglophone
lien nᵒ 2 : Site officiel francophone
lien nᵒ 3 : Mastodon mastodon.social/@ubix
lien nᵒ 4 : Reddit /r/UbixLinux/

Origines de la distribution

La volonté initiale du concepteur de la distribution était de pouvoir disposer, à tout moment et en toutes circonstances, des outils lui permettant de réaliser des analyses de données et d'en présenter le résultat ad hoc. Ce « couteau suisse » de manipulation des données, devait également lui permettre d'éviter de devoir justifier, rechercher, acquérir et installer l'écosystème logiciel nécessaire chaque fois que ce type de tâches se présentait à lui.

Son cahier des charges stipulait donc une empreinte disque la plus faible possible sans pour autant faire de concessions au niveau des fonctionnalités. La distribution se devait d'être portable et exécutable immédiatement dans des contextes variés, sans nécessité d'investissement, d'installation ou de droits d'accès particulier.

De ce fait, Ubix Linux ne se démarque pas par ses aspects « système », mais plutôt par sa destination et ses cas d'usage.

Au-delà du besoin initial

À l'heure où de nombreux concepts liés à la manipulation des données tels que le « Big Data », la « Data Science » ou le « Machine Learning » font la une de nombreux médias, ceux-ci restent encore des boîtes noires, affaire de spécialistes et d'organisation disposant des moyens de les mettre en application.

Si le grand public en intègre de mieux en mieux les grandes lignes, il ne dispose encore que de peu de recul sur la manière dont ses données peuvent être utilisées, ainsi que la richesse des débouchés associés.

D'un autre côté, de nombreux gisements de données à la portée du plus grand nombre demeurent inexploités, faute de compétences ou de moyens facilement accessibles.

Il se trouve qu'Ubix Linux peut permettre de surmonter cette difficulté, en offrant à tous les moyens de s'approprier (ou se réapproprier) et tirer parti des données disponibles.

Philosophie

Par nécessité, Ubix Linux a été conçue en intégrant uniquement des produits libres et open-source. Bien que cette distribution puisse s'avérer utile à toute personne devant manipuler des données, elle se doit de préserver et défendre une approche pédagogique et universaliste.

Elle a pour ambition de mettre les sciences de données à la portée de tous. La distribution en elle-même n'est qu'un support technique de base devant favoriser l'apprentissage par la pratique. Il est prévu de l'accompagner d'un tutoriels progressifs.

Les outils low-code/no-code intégrés dans la distribution permettent de commencer à manipuler des données sans devoir maîtriser au préalable la programmation. Néanmoins, des outils plus avancés permettent ensuite de s'initier aux principes des algorithmes d'apprentissage automatique.

Synthèse

Ubix Linux s'inscrit dans la philosophie du logiciel libre et plus particulièrement dans celle des projets GNU et Debian.

Elle se destine à :

demeurer accessible à tous ;
pouvoir s'exécuter sur des configurations matérielles relativement modestes, voire n'être installée que sur un périphérique portable USB ;
proposer un outil pédagogique pour appréhender de façon pratique la science des données et l'apprentissage machine ;
permettre la découverte, l'expérimentation et l'aguerrissement de tout un chacun aux principaux outils de manipulation des données ;
offrir une boîte à outils légère et agile, néanmoins complète et utile pour un public professionnel averti.

Et après…

Nous sommes à l'écoute de toute suggestion. Toutefois, les moyens étant ce qu'ils sont (au fond du garage), la réactivité à les prendre en compte pourra s'avérer inversement proportionnelle.

Nous souhaiterions que cet outil pédagogique puisse bénéficier au plus grand nombre : si vous voulez contribuer à la traduction du contenu du site officiel en espagnol, en portugais ou en allemand, vous êtes les bienvenus.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Quick insights using sqlelf

2023-09-19T12:29:33+02:00

https://fzakaria.com/2023/09/11/quick-insights-using-sqlelf.html

Commentaires : voir le flux Atom ouvrir dans le navigateur

Livre : "Dette technique" (2015, republié sous cc by-nc-sa)

2023-04-07T03:26:14+02:00

https://bastien.jaillot.fr/dette-technique-le-livre/

Commentaires : voir le flux Atom ouvrir dans le navigateur

application de convention d'écriture

2022-05-12T08:59:13+02:00

Bonjour à tous,
je suis à la recherche d'un ou plusieurs outils pour donner à l'utilisateur la possibilité de vérifier que son code est conforme et pourra être déposé sur notre dépôt git.

contexte

Je travaille sur le développement d'un logiciel d'acquisition, visualisation, analyse et diagnostic de données provenant du système d'acquisition d'un imageur médical. Jusqu'à présent je travaillais seul sur ce projet, mais à l'avenir des collègues vont me prêter main forte car le projet commence à grossir et les demandes utilisateurs aussi :) C'est évidement une excellente nouvelle !

Comme je travaillais seul, j'avais la quasi-certitude que les conventions étaient respectées; je connais bien le dev et sa rigueur personnelle :) Mais maintenant que l'équipe grossit il faut mettre en place des outils pour s'assurer de la cohérence du code.

Le projet est écrit en c++ et utilise Qt et root (cern).

Pour la mise en forme du code j'utilise clang-format. Ça, c'est carrément un outil génial et qui marche bien. Je suis parfois bluffé par sa puissance.

J'utilise aussi cppcheck pour faire de l'analyse statique de code.

Il n'y a pas de code coverage et le code est versionné avec git/gitlab.

ma recherche

Je cherche un outil qui me permette de mettre en place des règles simples et peu nombreuses dont voici un sous ensemble.
* snake_case PARTOUT (nom de fichier, variable, fonction, classe, enum… TOUT !!!)
* pas de préfixe my
* extension des fichiers
* nom des fichiers
* utilisation de caractères ascii (regexp [a-z0-9])

J'ai fait des recherches, mais je ne converge pas vraiment et c'est pour ça que je me permets de venir vous voir pour trouver de l'aide.

Je vous remercie d'avance pour votre aide.

Olivier

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Analyse les problèmes de vie privée dans les applications Android.

2022-02-08T17:19:15+01:00

https://exodus-privacy.eu.org/fr/

Commentaires : voir le flux Atom ouvrir dans le navigateur

Bibliothèques Python utiles à l'analyse des données

2019-03-27T23:14:42+01:00

Si vous réalisez des analyses de données à l’aide de Python sans doute connaissez-vous bien et utilisez-vous les bibliothèques pandas, scikit-learn, TensorFlow, Keras, matplotlib et quelques autres. Dans cet article-là, des bibliothèques un peu moins connues sont présentées avec comment les installer si nécessaire et avec des exemples.

Je vous aurais bien traduit l’article, mais je ne suis pas certain qu’il soit en licence libre. Je reprends dans le désordre la liste suggérée par l’article, je vous dis quelques mots sur chacune des bibliothèques et si ce teasing vous met l’eau à la bouche, vous pourrez toujours consulter l’article susmentionné. Néanmoins, vous n’y retrouverez pas toutes les bibliothèques que je mentionne vu que je me suis permis d’en ajouter quelques-unes.

Si vous ne connaissez rien à l’analyse des données avec Python (et que cela vous intéresse), je ne peux que vous conseiller l’excellente dépêche d’un super site consacré à linux.

Commençons pas les représentations graphiques.

Dash

Dash permet la création d’applications web de visualisation avec des menus déroulants, des curseurs et des graphiques à partir de Python sans devoir passer par JavaScript. À mon stade de connaissance, j’ai du mal à voir les différences avec ce que permet Bokeh.

IPyvolume

Si vous voulez réaliser des représentations en 3D, un coup d’œuil à IPyvolume est sans doute indiqué. IPyvolume permet de visualiser des volumes ainsi que des glyphes en 3D dans le notebook Jupyter. Pour l’instant, cela semble être une bibliothèque en version bêta, donc potentiellement avec des bugs plus nombreux que pour une bibliothèque mature.

Pyviz

Pyviz n’est pas une bibliothèque en soit mais pour ce qui concerne la visualisation, il s’agit certainement d’un portail intéressant à visiter. L’objectif de PyViz est de rendre la visualisation des données en Python plus facile à utiliser, plus facile à apprendre et plus puissante (rien que ça :-)).

Vous y trouverez notamment (en anglais)
- Des outils qui facilitent l’application des bibliothèques Python de visualisation à vos données.
- Un tutoriel complet montrant comment utiliser simultanément les outils disponibles pour effectuer un large éventail de tâches.
- Des exemples d'ensembles de données à utiliser.

Chartify

Quand Spotify Labs écrit des bibliothèques cela donne Chartify. Cette bibliothèque est construite sur Bokeh et semble surtout permettre d’utiliser Bokeh de manière plus user friendly et de manière moins fastidieuse. J’imagine que cela se fait au prix de la flexibilité.

Mais peut-être aurais-je dû débuter par des bibliothèques qui aident aux nettoyages des bases de données.

FlashText

Pour assurer un traitement du langage naturel (NLP), un nettoyage préalable des données textuelles est souvent nécessaire notamment en effectuant le remplacement de mots-clés ou l'extraction de mots-clés dans les phrases. Habituellement, de telles opérations peuvent être accomplies avec des expressions régulières, mais elles peuvent devenir laborieuses si le nombre de termes à rechercher se compte par milliers.

Le module FlashText de Python fournirait une solution appropriée pour de telles situations. L’avantage principal de FlashText est que le temps d’exécution est le même quel que soit le nombre de termes de recherche (j’ai un peu de mal à y croire mais c’est effectivement ce qu’il semble prétendre en comparant leur performance avec celle de la bibliothèque re).

FuzzyWuzzy

FussyWuzzy, et plus d'explication en mots ici, est une bibliothèque utile quand il s'agit d’évaluer des correspondances de chaînes de caractères. FuzzyWuzzy serait également pratique pour comparer des enregistrements conservés dans différentes bases de données. Techniquement, FuzzyWuzzy utilise la distance de Levenshtein pour calculer les différences entre les séquences.

Pendulum

La gestion des dates en Python vous frustre, peut-être que Pendulum peut vous aider. C’est une bibliothèque Python pour faciliter les manipulations des dates et des heures. Pour le moment, je n’ai pas été confronté à ce genre de problème, je suis donc bien en peine de mesurer l’intérêt de cette bibliothèque par rapport à la classe Python gérant les dates et heures.

Mais avant de nettoyer les données, peut-être faudrait-il les collecter, non ?

Wget

Wget est un utilitaire gratuit pour le téléchargement de fichiers depuis le web. Il prend en charge les protocoles HTTP, HTTPS et FTP, ainsi que la récupération via des proxies HTTP.

Une fois qu’on a de belles données bien nettoyée, on peut établir des modèles.

Imbalanced-learn

La plupart des algorithmes de classification fonctionnent mieux lorsque le nombre d'échantillons dans chaque classe est similaire. Malheureusement dans la vraie vie réelle, les ensembles de données sont souvent déséquilibrés ce qui peut avoir une incidence sur l’efficacité des algorithmes d'apprentissage automatique. Imbalanced-learn a été créée pour s'attaquer à ce problème. Il est compatible avec scikit-learn et fait partie des projets scikit-learn-contrib.

PyFlux

L'analyse des séries chronologiques est l'un des problèmes les plus fréquemment rencontrés dans l'apprentissage machine. Si vous souhaitez aborder ce genre de données avec des approches probabilistes (e.a. les modèles ARIMA, GARCH et VAR), PyFlux est une bibliothèque open source que vous devez considérer (et qui pour info est quelque peu délaissé par son créateur occupé sur d'autres projets).

pyFTS

Vous préférez une approche basée sur les ensembles flous ? pyFTS est votre ~~homme~~ bibliothèque. Pour une introduction à l’application des ensembles flous à l’analyse des séries temporelles, vous pouvez consulter ce blog.

DEAP

Si j’en crois Wikipédia, DEAP (pour Distributed Evolutionary Algorithms in Python) est une bibliothèque de calcul évolutif. Il intègre les structures de données et les outils nécessaires pour mettre en œuvre les techniques de calcul évolutif les plus courantes telles que les algorithmes génétiques, la programmation génétique, les stratégies d’évolution, l’optimisation des essaims de particules, les évolutions différentielles, la circulation et la distribution. Il est développé à l’Université Laval depuis 2009.

Personnellement, en préparant ce journal, j'ai découvert pas mal de nouvelles bibliothèques qui pourraient m'être utiles dans le futur. J'espère que cela sera aussi votre cas en le lisant.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur