Journal Une brève introduction à l'utilisation des données OpenStreetMap

Posté par  (site web personnel) . Licence CC By‑SA.
98
21
avr.
2021

Introduction

Vous connaissez sans doute OpenStreetMap (ou OSM), une base de données géographiques libre et collaborative que chacun peut éditer, et qui a souvent été mentionnée sur LinuxFr (voir quelques liens rappelés en fin de journal). Si en théorie tout le monde peut réutiliser ces données (sous licence ouverte ODbl), il peut être difficile pour un nouvel arrivant de savoir par où commencer pour y accéder.

Ce journal s'adresse aux personnes curieuses au sujet d'OpenStreetMap et intéressées par un (…)

Pandas, une bibliothèque pour manipuler facilement des données

Posté par  . Édité par _PhiX_, Benoît Sibaud, karteum59, Nÿco, Jiehong, olivierweb, palm123, Benoît et mornik. Modéré par tuiu pol. Licence CC By‑SA.
Étiquettes :
38
19
jan.
2014
Python

À l'occasion de la sortie de la version 0.13, je vous présente cette bibliothèque basée sur Python qui permet de travailler simplement et efficacement avec des données structurées. Jusqu'à présent, les versions se sont enchaînées rapidement mais celle-ci arrive plusieurs mois après la précédente. On peut donc espérer qu'un code développé pour cette nouvelle version demandera moins de maintenance.

Logo pandas

Les principales possibilités sont :

  • récupérer des données depuis des fichiers CSV, tableaux Excel, des pages web, HDF5, etc. ;
  • grouper, découper, alléger, déplacer, écrire les données ;
  • ces données peuvent être à une ou deux dimensions, avec des manques, ou encore temporelles avec ou sans périodicité.

Pour peu que les données soient correctement formatées, pandas peut s'en sortir même dans le cas où la quantité dépasse les capacités de votre machine en traitant les sources morceaux par morceaux.

Le développement de cette bibliothèque s'inscrit dans la problématique de disposer d'outils pour manipuler de gros volumes de données dans le but de leur exploitation scientifique ou commerciale.

Note : pandas fonctionne avec la même base de code sur Python 2 et 3 mais ce n'est, peut-être, pas le cas de toutes les dépendances.

Sortie de R version 3.0.0

Posté par  . Édité par alpentux, Nÿco, claudex et Sylvestre Ledru. Modéré par Pierre Jarillon. Licence CC By‑SA.
Étiquettes :
32
4
avr.
2013
Science

Le projet R annonce la sortie de la version 3.0.0 du logiciel statistique du même nom (pre-release le 7 mars 2013, sortie officielle le 3 avril).

R désigne à la fois un langage de programmation et son interpréteur. Historiquement, R est un dialecte dérivé du langage S, implémenté dans le logiciel propriétaire S-PLUS. L'aventure R a débuté en 1993, mais c'est à partir des années 2000 qu'il a pris une importance majeure dans le paysage des langages destinés aux applications statistiques. R rivalise aujourd'hui avec ses concurrents SAS (Statistical Analysis System), SPSS (Statistical Package for the Social Sciences), ou STATA ; il est devenu incontournable dans certaines disciplines, notamment la biologie.

Le changement de version majeur (2.15.3 vers 3.0) ne signale pas une transition importante (voir le changelog), mais marque une évolution progressive (la version 2.0 date de 2004). La mise à jour requiert cependant une réinstallation complète.

R fonctionne de manière modulaire, avec un cœur relativement réduit, sur lequel peuvent se greffer des bibliothèques de fonctions fournies sous forme de « paquets ». R doit certainement une partie de son succès à l'activité de sa communauté, puisque plus de 4700 paquets activement maintenus sont disponibles au téléchargement sur le site officiel, sans compter les projets indépendants, comme bioconductor.

R est avant tout destiné au traitement et à l'analyse des données : tests statistiques, data mining, et production de graphiques de qualité (destinés à la publication). Le langage est de plus en plus utilisé pour produire des scripts portables, ou pour réaliser des simulations numériques (MCMC, typiquement). Réputé inefficace en tant que langage interprété, la possibilité de coder les fonctions critiques en C tout en utilisant la syntaxe « haut-niveau » de R ouvre une niche écologique significative pour le développement d'applications statistiques.

Journal Gnu R version 4.0.0 est disponible

Posté par  . Licence CC By‑SA.
Étiquettes :
28
27
avr.
2020

R est un langage de programmation et un logiciel libre destiné aux statistiques et à la science des données. La version 4.0.0 est sorti le 24 avril

La liste complète des changements est disponible ici : https://cran.r-project.org/doc/manuals/r-release/NEWS.html.

Une des évolutions est potentiellement relativement impactante sur les scripts existants. Dans les versions précédentes, les chaînes de caractères étaient par défaut transformées en factor dans les fonctions read.table et data.frame (paramètre par défaut StringsAsFactor=TRUE), ce n'est plus le cas dans la (…)

Décès de Leland Wilkinson, « parrain » du paquet ggplot2 de R

Posté par  . Édité par Ysabeau 🧶 🧦, vmagnin et Benoît Sibaud. Modéré par Julien Jorge. Licence CC By‑SA.
23
20
déc.
2021
Communauté

Leland Wilkinson était un chercheur américain ayant contribué à la discipline de la visualisation des données. Il est l’auteur du livre Grammar of Graphics en 1999, et a notamment aidé un des cocréateurs du paquet ggplot2 de R à en faire son implémentation. Son décès a été annoncé le 13 décembre 2021 sur le blog spécialisé Flowing Data.

Journal [Parution] R et Espace (géographie) -- collection Framabook

Posté par  (site web personnel) . Licence CC By‑SA.
21
29
sept.
2014

Bonjour à tous,

La collection Framabook (projet Framasoft) ne s'arrête pas ! Cette fois, nous proposons un ouvrage d'initiation au logiciel libre R appliqué à l'analyse géographique.

Pourquoi un tel ouvrage ? D'abord parce que R est un logiciel libre (issu du projet GNU) possédant sans doute un des plus larges éventail de fonctionnalités tant ses contributeurs l'enrichissent depuis plus de 15 ans.

Le livre R et espace est une illustration des nombreux domaines dans lesquels R peut être appliqué.


ANNONCE DE

(…)

Journal Préparation de figures avec R : automatiser l'ajout d'annotations manuelles

Posté par  (site web personnel) . Licence CC By‑SA.
Étiquettes :
17
18
sept.
2021

R est un outil libre destiné aux statistiques utilisé pour l'analyse de données et la production de figures scientifiques. Une bonne reproductibilité des résultats peut être obtenue en utilisant des scripts R et un logiciel de gestion de version comme Git. Néanmoins, il est parfois pratique d'ajouter quelques annotations à la main sur une figure, ce qui va à l'encontre de la reproductibilité désirée.

Ce journal présente une approche permettant d'incorporer ces annotations manuelles dans une figure de manière (…)

Atelier Barcamp I. A. & Droit le 7 novembre 2017 à Paris

Posté par Open Law . Édité par Davy Defaud, Nÿco, bubar🦥 et Benoît Sibaud. Modéré par Nÿco. Licence CC By‑SA.
13
2
nov.
2017
Justice

Lors des six derniers mois, magistrats, avocats et juristes de l’association Open Law, dont la démarche est résolument orientée sur la production de ressources ouvertes, ont travaillé d’arrache‐pied pour créer un jeu de données de Natural Language Processing (NLP) en langue française.

Le 7 novembre prochain au Square, un événement est organisé pour faire se rencontrer juristes et développeurs afin de déterminer des cas d’usage concrets pour ce jeu de données. Affichage du plan des décisions, recherche ciblée dans la jurisprudence, extraction d’informations précises, outils de justice prédictive… Quels usages et quels services peuvent être créés grâce à ce jeu de données ? Telle est la problématique qui sera mise à l’honneur à l’occasion de ce prochain rendez‐vous, au cours duquel nous définirons ensemble les défis qui seront portés le 7 décembre prochain lors du Hackathon I. A. & Droit organisé dans le cadre du Paris Open Source Summit.

Date et lieu :

R-project bouge, R version 2.2.0 sort

Posté par  . Modéré par Jaimé Ragnagna.
Étiquettes :
0
8
oct.
2005
Presse
R est un environnement utilisant un langage pour l'analyse mathématique et statistique sur ordinateur, et produit également des graphiques de très grande qualité. Il est extrêmement modulaire ce qui a grandement facilité la création de modules spécifiques par des tiers. On trouve ainsi des dizaines de modules spécifiques pour l'analyse d'un type de problème précis.

R implémente notamment en open-source le langage S (des laboratoires Bell maintenant Lucent Technologies), dont les programmes tournent quasiment sans modification avec R, ce qui en fait un outil de choix pour les recherches mettant en oeuvre les statistiques : bioinformatique, analyse de marchés financiers, analyse de données spatiales...

Le projet R est encore bien peu connu du public probablement à cause de son coté austère et ciblé. C'est pourquoi les sorties se font discrètes. Hier c'est la version 2.2.0 qui a été publiée, avec son lot de changements concernant principalement le confort d'utilisation.

R peut certes sembler rebutant pour l'étudiant souhaitant faire quelques calculs statistiques, mais - une fois pris en main - il se révèle très efficace.

Le projet R

Posté par  (site web personnel) . Modéré par Pascal Terjan.
Étiquettes :
0
20
oct.
2002
GNU
Le logiciel R est un clone libre de S-Plus, et constitue un système complet et très puissant pour la gestion et l'analyse statistique de données. Le développement est très actif, et la version 1.6 du logiciel vient de sortir récemment.

Il s'agit d'un projet pas forcément très grand public, mais qui est sans doute appelé à prendre de l'envergure, notamment quand on connaît le prix des licences de logiciels de type SAS ou SPSS.

A suivre, donc...