LinuxFr.org : les contenus étiquetés avec « r »

Conférence RStudio : présentations accessibles en direct en ligne les 27 et 28 juillet

2022-07-25T17:56:01+02:00

https://www.rstudio.com/conference/

Commentaires : voir le flux Atom ouvrir dans le navigateur

Décès de Leland Wilkinson, « parrain » du paquet ggplot2 de R

2021-12-20T20:50:23+01:00

Leland Wilkinson était un chercheur américain ayant contribué à la discipline de la visualisation des données. Il est l’auteur du livre Grammar of Graphics en 1999, et a notamment aidé un des cocréateurs du paquet ggplot2 de R à en faire son implémentation. Son décès a été annoncé le 13 décembre 2021 sur le blog spécialisé Flowing Data.

lien nᵒ 1 : Annonce du décés sur Flowing Data
lien nᵒ 2 : Présentation de Leland Wilkinson (Université de L'Illinois, Chicago)
lien nᵒ 3 : CV en PDF
lien nᵒ 4 : Hommage de Hadley Wickham, créateur de ggplot2 (Twitter)
lien nᵒ 5 : Hommage de Jessica Hullman
lien nᵒ 6 : Hommage de l'entreprise H2O.ai et formulaire pour les messages de condoléance
lien nᵒ 7 : Le livre "Grammar of Graphics" (Springer)
lien nᵒ 8 : Présentation de Leland Wilkinson (Tableau)
lien nᵒ 9 : Interview de SuperScholar sur SYSTAT et sur "Grammar of Graphics" (2010)
lien nᵒ 10 : Page wikipédia de Leland Wilkinson

Titulaire d’un diplôme de théologie à Harvard Divinity School initialement pour devenir chapelain, il s’est découvert un intérêt pour les statistiques et l’informatique durant son doctorat de psychologie à l’université de Yale au début des années 1970.

Wilkinson a, durant sa vie professionnelle, concilié son parcours académique d’enseignant vacataire dans les universités de l’Illinois de Chicago et de Northwestern avec sa carrière d’entrepreneur.

Après quelques expériences de consultant en statistique avec divers organismes de recherche et des hôpitaux, il a créé le logiciel SYSTAT qui a popularisé la notion de carte de chaleur pour la visualisation des données et a fondé la société du même nom en 1984 avec l’aide de sa femme juriste. Il a revendu sa première entreprise à SPSS en 1994 pour pouvoir se recentrer un temps sur la recherche académique. Il a rejoint par la suite divers organismes dont le NISS et l’American Statistical Association.

Wilkinson reprendra plus activement la vie des affaires dans les années 2010. Ses derniers postes ont été vice-président des statistiques chez Tableau Software en 2014, puis directeur scientifique chez H2O.ai à partir de 2016. Il est décédé le 10 décembre 2021 des suites d’un AVC selon son dernier employeur.

Parmi les hommages cités par l’annonce de décès du blog Flowing Data, nous avons Hadley Wikcham, coauteur de ggplot2 (sous licence MIT), qui s’est souvenu de Wilkinson comme un soutien déterminant pour son projet de paquet R durant ses études supérieures, et Jessica Hullman, chercheuse en visualisation des données, qui a fait part de son admiration pour Grammar of Graphics. L’équipe de H2O.ai a également tenu à honorer la mémoire de leur directeur scientifique en soulignant ses qualités humaines et a mis en ligne un formulaire où il est possible de mettre ses propres messages de condoléance.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Préparation de figures avec R : automatiser l'ajout d'annotations manuelles

2021-09-18T22:18:32+02:00

R est un outil libre destiné aux statistiques utilisé pour l'analyse de données et la production de figures scientifiques. Une bonne reproductibilité des résultats peut être obtenue en utilisant des scripts R et un logiciel de gestion de version comme Git. Néanmoins, il est parfois pratique d'ajouter quelques annotations à la main sur une figure, ce qui va à l'encontre de la reproductibilité désirée.

Ce journal présente une approche permettant d'incorporer ces annotations manuelles dans une figure de manière automatique et reproductible. J'espère qu'il pourra être utile aux lectrices et lecteurs de LinuxFr qui utilisent R et qui ont pu rencontrer ce problème par le passé !

Le contexte en détail

R est très utilisé en recherche pour analyser des données ainsi que pour réaliser des figures à partir de ces données. Un (ou plusieurs) script R peut contenir toutes les étapes de nettoyage des données brutes, d'analyse statistique, et finalement de préparation des tableaux de résultats et des figures destinés à la publication dans des revues scientifiques.

L'utilisation de script(s) est très utile pour reproduire les analyses de manière fiable, par exemple lorsque le jeu de données original est mis à jour : il suffit de relancer le ou les scripts pour automatiquement mettre à jour toutes les étapes en aval, y compris les tableaux et les figures finals.

Un léger problème survient assez souvent lors de la préparation de figures élaborées : même si R permet de dessiner pratiquement n'importe quelle figure, il peut être plus rapide pour certaines annotations (typiquement des éléments de légende) d'utiliser un logiciel tierce comme Inkscape pour ajouter à la main quelques éléments au fichier svg ou pdf produit par R, plutôt que de les définir laborieusement avec du code R.

Cette étape manuelle implique que la génération des figures n'est plus 100% automatique : après une mise à jour des données, il faudra répéter l'étape d'annotation manuelle de la figure. Si ce n'est pas un problème à faire une fois ou deux, cela devient plus ennuyeux si le jeu de données est amené à être mis à jour souvent, ou si l'analyse fait partie d'un pipeline plus important géré par un Makefile¹ par exemple.

Dans cette situation, il peut être intéressant d'automatiser cette dernière étape manuelle. Ce journal propose une approche simple pour ajouter des annotations manuelles de manière automatique à une figure générée par R.

L'approche proposée

En quelques mots, l'idée est de sauvegarder les annotations faites à la main dans un fichier svg séparé, et d'utiliser quelques lignes de code pour superposer le contenu de ce fichier à la figure produite par R.

Dans la figure ci-dessous, l'approche de gauche est celle dans laquelle l'intervention manuelle est nécessaire à chaque exécution du pipeline ; celle de droite est l'approche présentée dans ce journal, où l'étape manuelle n'a lieu qu'une seule fois.

Comparaison de deux approches possibles pour ajouter des annotations manuelles dans une figure générée avec R. Celle de droite, présentée ici, a l'avantage de ne pas nécessiter une étape manuelle à chaque exécution.

Notons que dans l'approche proposée à droite, l'ensemble du travail peut être intégralement suivi par Git : le script R qui sert à générer la figure incomplète, le fichier svg d'Inkscape qui est un fichier texte, et le script R qui sert à fusionner les deux fichiers svg (la figure générée par R et celle avec les annotations manuelles).

Un exemple détaillé

1 - Préparation de la figure de base avec R

Imaginons que l'on souhaite dessiner une figure présentant la taille de certaines grandes villes françaises. Chaque ville est représentée par un rectangle dont les dimensions sont judicieusement calculées afin de donner une idée de la taille des villes à la fois du point de vue du nombre d'habitants et de celui de la superficie occupée.

Le code ci-dessous prépare les données et enregistre une figure au format svg sous le nom figure-de-base.svg:

library(tibble)

# Données
z <- tibble::tribble(
           ~ville,  ~lat,  ~lon, ~superficie_km2, ~habitants,
          "Paris", 48.86,  2.35,           105.4,    2175601,
      "Marseille",  43.3,  5.37,          240.62,     868277,
           "Lyon", 45.76,  4.83,           47.87,     518635,
       "Toulouse",  43.6,  1.44,           118.3,     486828,
           "Nice",  43.7,  7.27,           71.92,     341032,
         "Nantes", 47.22, -1.55,           65.19,     314138,
    "Montpellier", 43.61,  3.88,           56.88,     290053,
     "Strasbourg", 48.57,  7.75,           78.26,     284677,
       "Bordeaux", 44.84, -0.58,           49.36,     257068,
          "Lille", 50.64,  3.06,           34.51,     233098,
         "Rennes", 48.11, -1.68,           50.39,     217728,
          "Reims", 49.26,  4.03,           47.02,     182211,
         "Toulon", 43.12,  5.93,           42.84,     176198,
  "Saint-Étienne", 45.43,  4.39,           79.97,     173089,
       "Le Havre", 49.49,   0.1,           46.95,     169733,
          "Brest", 48.39, -4.49,           49.51,     139602,
       "Biarritz", 43.48, -1.56,           11.66,      25532
  )
z$densite <- z$habitants / z$superficie_km2

# Figure sauvegardée dans un fichier svg
svg("figure-de-base.svg", width = 8, height = 5, family = "serif")
# Pour laisser de la place aux annotations manuelles sur le côté
par(fig = c(0, 0.7, 0, 1))
# plot() avec 'asp = 1.6' pour avoir un aspect correct à cette latitude
plot(NA, type = "n", xlab = "Longitude", ylab = "Latitude",
     xlim = c(-6, 10), ylim = c(42, 52), asp = 1.6, las = 1, bty = "n")
# ADJ_W et ADJ_H permettent d'ajuster les dimensions des villes à la volée
ADJ_W <- 8e-3    
ADJ_H <- 1.5e-4
# Dessin d'un rectangle par ville (i.e. par ligne du tableau `z`)
for (i in seq_len(nrow(z))) {
    x0 <- z$lon[i]
    y0 <- z$lat[i]
    w <- z$superficie_km2[i] * ADJ_W
    h <- z$densite[i] * ADJ_H
    points(x0, y0, pch = 4)
    rect(x0 - w/2, y0, x0 + w/2, y0 + h, col = grey(0.8))
    text(x0, y0, z$ville[i], pos = 1)
}
# Fermeture du fichier graphique
dev.off()

Figure de base générée par R, sans la légende manuelle. Le code qui produit cette figure est écrit de manière à laisser de l'espace sur la droite pour l'ajout ultérieur des annotations.

2 - Préparation des annotations manuelles avec Inkscape

À présent que l'on dispose de la figure de base générée par R, on peut l'ouvrir avec Inkscape et ajouter à la main les éléments nécessaires. Dans l'exemple ci-dessous, j'ai ajoutée une légende qui explique comment interpréter les dimensions des rectangles représentant les villes:

Ajout manuel d'une légende avec Inkscape, en se basant sur la figure de base générée par R un peu plus tôt.

Une fois que la légende est complète, on efface tous les éléments qui avaient été créés par R afin de ne garder que les annotations ajoutées à la main. Ces annotations sont alors sauvegardées dans un nouveau fichier svg avec Inkscape (annotations-manuelles.svg, ci-dessous). Ce fichier peut être suivi par Git.

Fichier svg sauvegardé avec Inkscape, contenant uniquement les annotations manuelles.

Une note importante : il est probable que la figure générée par R possède un rectangle blanc en arrière-plan. Il est important de bien penser à effacer cet arrière-plan avant d'enregistrer annotations-manuelles.svg, sinon il occultera la figure de base lorsque annotations-manuelles.svg sera superposé à la figure générée par R (voir ci-dessous).

3 - Automatisation de l'ajout des annotations manuelles à la figure générée par R

À ce stade, on dispose de deux fichiers svg:

Le fichier figure-de-base.svg, généré par le script R et facilement mis à jour si les données changent (il suffit d'exécuter le script R à nouveau avec les nouvelles données).
Le fichier annotations-manuelles.svg, créé à la main avec Inkscape et suivi par Git. Si les annotations doivent être modifiées dans le futur, elles le seront avec Inkscape et les modifications seront consignées dans l'historique de Git.

La dernière étape consiste à réaliser l'incorporation du fichier annotations-manuelles.svg par-dessus figure-de-base.svg avec quelques lignes de code en R, de manière à ce que l'ensemble des opérations soient scriptées :

library(rsvg)
library(grImport2)
# Conversion du fichier svg avec les annotations manuelles vers le format cairo
# svg reconnu par grImport2
# ("tmp-annotations-cairo.svg" est un fichier temporaire qui sera effacé)
rsvg::rsvg_svg("annotations-manuelles.svg", "tmp-annotations-cairo.svg")
# Chargement de la figure de base
f_base <- grImport2::readPicture("figure-de-base.svg")
# Chargement des annotations (au format cairo svg)
f_ann <- grImport2::readPicture("tmp-annotations-cairo.svg")
# Sauvegarde de la figure finale au format pdf par exemple
cairo_pdf("figure-finale.pdf", width = 8, height = 5, family = "serif")
grImport2::grid.picture(f_base, expansion = 0)
grImport2::grid.picture(f_ann, expansion = 0)
dev.off()
# Nettoyage du fichier temporaire
file.remove("tmp-annotations-cairo.svg")

Et voici la figure finale au format pdf :

Figure finale, avec à la fois la figure de base générée par R et les annotations manuelles créées via Inkscape.

À présent, si les données changent, on peut simplement exécuter à nouveau le script R qui produit la figure de base, puis le script R qui fusionne cette figure de base avec le fichier svg des annotations manuelles. Et si les annotations manuelles doivent être changées, on peut juste modifier le fichier svg des annotations à la main, le consigner dans l'historique de Git, et relancer le script R pour la fusion des fichiers graphiques !

Conclusion

R est un outil très souple et on peut faire énormément avec, y compris les légendes les plus tarabiscotées. Mais parfois il est indéniablement plus simple et plus rapide d'ouvrir Inkscape et de réaliser les annotations en quelques secondes plutôt qu'avec du code.

J'espère que ce journal aura permis de réconcilier les gens qui, comme moi, sont de fermes partisans de l'approche "100% codé en R pour être reproductible" avec l'idée d'ajouter quelques annotations à la main !

Et pour finir, quelques remarques :

L'approche proposée ici marche très bien pour les annotations fixes, qui ne changent pas de place lorsque la figure est mise à jour, et qui sont simplement ajoutées à la figure. Par contre, cela ne sera pas une solution si un élément graphique produit par R doit être modifié ou supprimé : dans ce cas, il vaut mieux se donner un peu de mal avec R pour ne pas avoir à modifier cet élément en dehors du script, ou alors omettre son inclusion avec R et l'ajouter dans le fichier svg des annotations manuelles.
Je recommande de faire attention à être cohérent dans les dimensions des fichiers graphiques, c'est à dire de s'assurer que les fichiers svg en entrée (figure-de-base.svg et annotations-manuelles.svg) ainsi que le fichier final en sortie (figure-finale.pdf) aient la même taille, afin de ne pas avoir de mauvaise surprise quand les images sont superposées.

Amusez-vous bien avec vos figures maintenant 100% reproductibles :)

Voir par exemple Baker (2020) "Using GNU Make to Manage the Workflow of Data Analysis Projects". ↩

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Une brève introduction à l'utilisation des données OpenStreetMap

2021-04-21T13:20:48+02:00

Sommaire

Introduction
Vue d'ensemble de l'écosystème OpenStreetMap
- Comment télécharger les données OSM
- Structure des données OSM brutes
Un exemple: visualiser la géographie du Danemark
Pour aller plus loin
- Quelques contenus apparentés à OSM déjà existants sur LinuxFr
Conclusion

Introduction

Vous connaissez sans doute OpenStreetMap (ou OSM), une base de données géographiques libre et collaborative que chacun peut éditer, et qui a souvent été mentionnée sur LinuxFr (voir quelques liens rappelés en fin de journal). Si en théorie tout le monde peut réutiliser ces données (sous licence ouverte ODbl), il peut être difficile pour un nouvel arrivant de savoir par où commencer pour y accéder.

Ce journal s'adresse aux personnes curieuses au sujet d'OpenStreetMap et intéressées par un usage simple des données OSM. Le but est de fournir une brève introduction à l'accès et à la visualisation de ces données cartographiques, mais avec assez d'informations pour aller plus loin une fois le sujet débroussaillé !

À titre d'exemple, ce journal présente les étapes et le code nécessaire pour réaliser quelques cartes du Danemark. Pour vous mettre en bouche, voici le genre d'image qui peut être générée en suivant ce journal, à partir de quelques lignes de commandes et d'un peu de R (le langage destiné aux statistiques):

Vue de St-Pétersbourg (Russie) réalisée à partir des données OpenStreetMap. Seuls les éléments annotés highways sont utilisés dans cette figure, mais le Golfe de Finlande à l'ouest et le fleuve Néva qui traverse la ville sont bien visibles en filigrane.

Vue d'ensemble de l'écosystème OpenStreetMap

La façon la plus directe de visualiser les données du projet OpenStreetMap est tout simplement de visiter son site, qui permet de naviguer sur une carte du monde interactive. L'aide et le wiki du projet sont plutôt bien faits et permettent de se jeter à l'eau facilement, par exemple pour contribuer soi-même à la cartographie.

Comment télécharger les données OSM

L'accès aux données elles-mêmes peut sembler un peu plus intimidant: la base de données est très volumineuse (environ 100 Go pour la version compressée du monde entier en 2020), il existe de nombreux outils dédiés à différents aspects de la manipulation de ces données, et il peut être difficile de s'y retrouver au premier abord. Dans mon cas, je voulais pouvoir télécharger les données brutes de certaines régions pour générer mes propres visualisations cartographiques en amateur, mais j'ai longtemps eu l'impression que cela nécessitait des étapes ardues avec l'installation d'un serveur comme mapnik et d'une base de donnée comme PostGIS.

En réalité, il y a beaucoup de points d'entrée différents permettant d'utiliser les données brutes OSM ! Ces approches alternatives sont bien expliquées sur la page wiki correspondante. Certaines API ou bibliothèques permettent de télécharger au coup par coup uniquement ce dont on a besoin (par exemple les instances de l'API Overpass ou le paquet R osmar). Je préfère pour ma part télécharger en une seule fois toutes les données correspondant à une certaine région, et travailler ensuite en local en me focalisant sur la mise au point de la visualisation graphique : c'est l'approche choisie dans ce journal.

Une manière pratique de télécharger les données pour une région cible est d'utiliser les instantanés de la base de données OSM fournis par Geofabrik. Dans quel format les données sont-elles proposées ? Il existe deux principaux formats utilisés (mais il y en a d'autres): le format OSM XML (texte brut, organisé et clair) et le format PBF (format binaire, compact, rapide à manipuler par les outils dédiés). Les fichiers peuvent facilement être convertis d'un format à l'autre si besoin.

Les fichiers de données OSM par régions ou par pays peuvent être très volumineux, en fonction de la taille du territoire couvert et de la quantité de données enregistrées pour ce territoire. Par exemple, à l'heure où j'écris ces lignes, le fichier PBF pour l'ensemble de la France fait 3,7 Go (mais des fichiers préparés par département sont disponibles), celui pour les Açores seulement 11.2 Mo et celui pour les USA 7,3 Go.

Structure des données OSM brutes

Les données OSM sont vectorielles : il s'agit d'entités géométriques comme des points, des lignes, ou des polygones, que des moteurs de rendu peuvent utiliser pour générer des tuiles de carte à différent niveaux de zoom.

D'un point de vue technique, les données OSM brutes sont ainsi constituées d'éléments fondamentaux qui peuvent être:

un nœud (node), l'élément de base muni d'une latitude et d'une longitude. Il peut être utilisé pour décrire des objets ponctuels (comme un arrêt de bus, un arbre ou un feu tricolore) ou comme composant d'un élément plus complexe.
un chemin (way), formé par plusieurs nœuds connectés en une ligne ouverte (ex : route) ou en un polygone fermé (ex : lac).
une relation (relation), qui permet d'associer entre eux plusieurs éléments. Par exemple, plusieurs chemins peuvent être groupés en une voie cyclable continue.

Ces éléments (nœuds, chemins, relations) sont complétés par un système d'attributs (tags) de la forme key=value. Par exemple, un chemin avec l'attribut highway=motorway représente une route, et pourrait également être muni d'un attribut comme maxspeed=80.

Une fois familiarisé avec cette hiérarchie relativement simple, vous pourrez jongler avec les données brutes et extraire celles qui vous intéressent sans trop de difficulté, en particulier si vous êtes un peu habitué à manipuler des tableaux de données avec R, Python ou SQL par exemple. Cependant, une chose importante à retenir est que les attributs ne sont pas toujours parfaitement enregistrés par les contributeurs ! Par exemple, certains contributeurs peuvent avoir annoté un trait de côte avec l'attribut coastline, d'autres avec Coastline. Un cours d'eau peut avoir été annoté en tant que natural=water, mais l'attribut water=river peut avoir été oublié.

Un exemple: visualiser la géographie du Danemark

L'approche simple présentée ici pour générer une carte se découpe en trois étapes :

télécharger les données de la région d'intérêt (ici le Danemark) au format PBF
extraire du fichier PBF les données requises pour la carte que l'on veut dessiner, au format XML. Ce filtrage peut être fait en fonction de coordonnées géographiques définissant une zone à extraire et/ou du type de données recherchées (par exemple extraire uniquement les traits de côte et les cours d'eau).
dessiner la carte en utilisant R et quelques paquets dédiés.

Télécharger les données

Pour l'exemple choisi dans ce journal (le Danemark), nous pouvons trouver les données OSM brutes à partir de la page de téléchargement de Geofabrik. Une fois arrivés sur la page pour le Danemark, on nous propose les données sous différents formats, y compris au format PBF qui nous intéresse ici (fichier denmark-latest.osm.pbf, 373 Mo).

La ligne de commande ci-dessous permet de télécharger le fichier PBF requis en utilisant wget:

# Télécharge le fichier denmark-latest.osm.pbf dans le répertoire courant
wget https://download.geofabrik.de/europe/denmark-latest.osm.pbf

Extraire les données cibles

La taille du fichier PBF téléchargé est relativement raisonnable (373 Mo), ce qui est une des raisons du choix du Danemark pour cet exemple. Une fois converties au format XML, les données pour le Danemark entier sont tout de même assez lourdes et la manipulation du jeu complet dans une session R serait un peu malaisée, d'où l'intérêt d'utiliser des outils en ligne de commande pour affiner le jeu de données directement à partir du fichier PBF.

Le programme osmium est un outil en ligne de commande qui permet de manipuler efficacement les fichiers PBF. (Plus généralement, Osmium est aussi une bibliothèque C++ avec des interfaces Python et NodeJS disponibles.) Sur un système Debian, on peut l'installer depuis les dépôts avec apt install osmium-tool. Si la région d'intérêt est connue (par exemple une ville en particulier), il est avantageux d'utiliser osmium pour extraire uniquement les données comprises dans un cadre de latitude et longitude données (une "bounding box" en anglais). De plus, osmium est aussi capable de filtrer les données en se basant sur les attributs.

J'utilise personnellement Marble pour trouver facilement les limites en latitude et longitude de ma zone d'intérêt. Pour cet exemple, je m'intéresse à deux zones du Danemark et je vais donc extraire deux fichiers PBF à partir du fichier PBF du Danemark métropolitain complet :

un fichier centré sur le nord de la péninsule du Jutland. Il sera ensuite filtré par attributs pour garder uniquement les traits de côte ainsi que les rivières et autres éléments hydrographiques. Le cadre géographique est défini par une longitude comprise entre 8 et 11°E et une latitude comprise entre 56 et 58°N.
un fichier centré sur Copenhague. Il sera ensuite filtré par attributs pour garder uniquement les traits de côte et l'hydrographie ainsi que les routes. Le cadre géographique est défini par une longitude comprise entre 12 et 13°E et une latitude comprise entre 55.5 et 56°N.

Péninsule du Jutland

Voici les lignes de commande utilisées pour extraire les données de la péninsule du Jutland :

# Extraire les données pour la région du Jutland
osmium extract --bbox 8,56,11,58 -s smart denmark-latest.osm.pbf -o jutland.pbf
# Filtrer les traits de côte, rivières et autres plans d'eau via les attributs
osmium tags-filter jutland.pbf wr/natural=water wr/natural=bay wr/natural=coastline wr/natural=Coastline wr/water wr/waterway -o jutland-cotes.xml

La commande osmium extract ci-dessus utilise l'option --bbox pour définir le cadre en longitude et latitude et l'option -s smart pour éviter de tronquer les polygones qui chevaucheraient le cadre défini par --bbox (page du manuel).

La commande osmium tags-filter est utilisée pour extraire uniquement les éléments qui nous intéressent (et les convertir au format XML en passant) (page du manuel). Ici, je requiers tous les éléments ways ou relations (préfixe wr/ dans la ligne de commande) avec un attribut natural égal à water, bay, coastline ou Coastline ou avec un attribut water ou waterway. Cela devrait correspondre plus ou moins aux côtes, rivières et plans d'eau, mais encore une fois l'annotation des attributs n'est pas forcément parfaite. Pour cette raison, il est parfois utile d'examiner systématiquement tous les attributs des éléments couvrant la région d'intérêt pour déterminer ceux qui nous intéressent (en utilisant un peu de grep, sort et uniq sur le fichier XML non-filtré de la région, par exemple). L'outil taginfo d'OpenStreetMap peut être utile (voir aussi la page du wiki consacrée aux attributs).

À ce stade, le fichier jutland-cotes.xml contient les données qui nous intéressent pour la visualisation. C'est ce fichier que nous allons pouvoir charger dans R pour dessiner la carte.

Région de Copenhague

Concernant la seconde zone géographique de notre exemple, voici les lignes de commandes utilisées pour extraire les traits de côte et les routes autour de Copenhague :

# Extraire les données pour la région de Copenhague
osmium extract --bbox 12,55.5,13,56 -s smart denmark-latest.osm.pbf -o copenhague.pbf
# Filtrer les traits de côte, rivières et plans d'eau
osmium tags-filter copenhague.pbf wr/natural=water wr/natural=bay wr/natural=coastline wr/natural=Coastline wr/water wr/waterway -o copenhague-cotes.xml
# Filter les routes
osmium tags-filter copenhague.pbf w/highway -o copenhague-routes.xml

À ce stade, deux fichiers sont prêts pour Copenhague : copenhague-cotes.xml et copenhague-routes.xml.

Dessiner les cartes

Une fois que les fichiers XML contenant les données nécessaires à la préparation des cartes sont prêts, il ne reste plus qu'à les charger dans R (ou le programme graphique de votre choix), à jongler un peu pour récupérer les latitudes et longitudes de chaque point et à dessiner le tout dans un fichier png.

C'est donc R qui est employé ici : il s'agit d'un langage de programmation et d'un logiciel libre très utilisé pour les statistiques, aussi bien dans le monde de la recherche académique que dans celui des entreprises privées. Une introduction à R est en dehors du cadre de ce journal, mais quelques pointeurs sont fournis dans la section Pour aller plus loin si vous êtes intéressé !

Les paquets R utilisés ci-dessous sont osmar pour le chargement des données OSM, tidyverse pour la manipulation des données, et ggplot2 et cowplot pour la partie graphique. Notez qu'osmar nécessite l'installation d'un programme tiers, osmosis, qui peut être installé sur un système Debian avec apt install osmosis.

Voici le code R nécessaire pour dessiner une carte des côtes du Jutland :

# Chargement des paquets
library(osmar)
library(tidyverse) # cela charge aussi ggplot2
library(cowplot)

# Chargement des données OSM
src <- osmsource_osmosis("jutland-cotes.xml")
bbox <- corner_bbox(0, 50, 20, 65)
jutland <- get_osm(bbox, src)

# Quelle est la structure de l'object `jutland` ?
str(jutland)

L'objet jutland est une liste qui contient les infos sur les nœuds (jutland$nodes), les chemins (jutland$ways) et les relations (jutland$relations). Le code ci-dessous manipule ces données pour obtenir un tableau final propre, avec les coordonnées de tous les points définissant des chemins ayant un attribut natural, water ou waterway :

target_ways_id <- jutland$ways$tags %>%
  filter(k == "natural" | k == "water" | k == "waterway") %>%
  pull(id) %>% unique()
target_refs <- jutland$ways$refs %>% filter(id %in% target_ways_id)
target_nodes <- left_join(target_refs, jutland$nodes$attrs, by = c("ref" = "id"))

Maintenant que le tableau target_nodes contient tous les nœuds intéressants, groupés par l'identifiant du chemin auquel ils appartiennent, nous sommes prêts à utiliser ggplot2 pour tracer la carte :

bkg_col <- grey(0.1)
p <- ggplot(target_nodes, aes(x = lon, y = lat)) +
  geom_path(aes(group = id), col = "chartreuse", size = 0.3) +
  coord_map(xlim = c(8, 11.5), ylim = c(56.4, 58)) +
  theme_void() +
  theme(plot.background = element_rect(fill = bkg_col, colour = bkg_col))
p <- cowplot::ggdraw(p) + theme(plot.background = element_rect(fill = bkg_col))
ggsave("jutland.png", p, width = 12, height = 6.75)

Vue du nord de la péninsule du Jutland (Danemark). Le centre de la carte est à peu près localisé à 9.8°E, 57.3°N, et la hauteur totale nord-sud de la zone représentée est d'environ 200 km.

On peut jouer sur les couleurs pour différents styles de rendu :

bkg_col <- "dodgerblue3"
p <- ggplot(target_nodes, aes(x = lon, y = lat)) +
  geom_path(aes(group = id), col = "white", size = 0.5) +
  coord_map(xlim = c(8, 11.5), ylim = c(56.4, 58)) +
  theme_void() +
  theme(plot.background = element_rect(fill = bkg_col, colour = bkg_col))
p <- cowplot::ggdraw(p) + theme(plot.background = element_rect(fill = bkg_col))
ggsave("jutland-bleu.png", p, width = 12, height = 6.75)

Même vue que précédemment, style diazographie.

Pour la seconde partie de notre exemple, Copenhague, le principe est le même. La seule différence est que l'on charge séparément les données pour les côtes et pour les routes avant de les afficher ensemble sur la carte finale :

# Chargement des données OSM (cela prend un moment)
src <- osmsource_osmosis("copenhague-cotes.xml")
cophg_cotes <- get_osm(bbox, src)
src <- osmsource_osmosis("copenhague-routes.xml")
cophg_routes <- get_osm(bbox, src)

# Préparation des données pour les côtes et l'hydrographie
target_ways_id <- cophg_cotes$ways$tags %>%
  filter(k == "natural" | k == "water" | k == "waterway") %>%
  pull(id) %>% unique()
target_refs <- cophg_cotes$ways$refs %>% filter(id %in% target_ways_id)
coast_nodes <- left_join(target_refs, cophg_cotes$nodes$attrs, by = c("ref" = "id"))

# Préparation des données pour les routes
target_ways_id <- cophg_routes$ways$tags %>% filter(k == "highway") %>%
  pull(id) %>% unique()
target_refs <- cophg_routes$ways$refs %>% filter(id %in% target_ways_id)
road_nodes <- left_join(target_refs, cophg_routes$nodes$attrs, by = c("ref" = "id"))

À ce stade les tableaux coast_nodes et road_nodes contiennent les données propres, prêtes à être dessinées :

# Le code ci-dessous trace deux fois les routes, avec la même couleur mais avec
# des largeurs et des transparences un peu différentes, afin de leur donner un
# léger effet de lueur.
bkg_col <- grey(0.1)
p <- ggplot(coast_nodes, aes(x = lon, y = lat)) +
  geom_path(data = road_nodes, aes(x = lon, y = lat, group = id),
            col = adjustcolor("magenta", alpha.f = 0.12), size = 0.5) +
  geom_path(data = road_nodes, aes(x = lon, y = lat, group = id),
            col = "magenta", size = 0.1) +
  geom_path(aes(group = id), col = "deepskyblue", size = 0.2) +
  coord_map(xlim = c(12.05, 12.9), ylim = c(55.52, 55.79)) +
  theme_void() +
  theme(plot.background = element_rect(fill = bkg_col, colour = bkg_col))
p <- cowplot::ggdraw(p) + theme(plot.background = element_rect(fill = bkg_col))
ggsave("copenhague.png", p, width = 12, height = 6.75)

Vue de Copenhague (Danemark). Côtes et réseau hydrographique en bleu, routes en magenta. La largeur totale de la zone représentée est d'environ 60 km.

En utilisant des limites en x et y plus étroites dans la fonction coord_map(), on peut zoomer sur une partie de la ville :

p <- ggplot(coast_nodes, aes(x = lon, y = lat)) +
  geom_path(data = road_nodes, aes(x = lon, y = lat, group = id),
            col = adjustcolor("magenta", alpha.f = 0.1), size = 1) +
  geom_path(data = road_nodes, aes(x = lon, y = lat, group = id),
            col = adjustcolor("magenta", alpha.f = 0.1), size = 0.6) +
  geom_path(data = road_nodes, aes(x = lon, y = lat, group = id),
            col = "magenta", size = 0.2) +
  geom_path(aes(group = id), col = "deepskyblue", size = 0.4) +
  coord_map(xlim = c(12.5, 12.7), ylim = c(55.642, 55.705)) +
  theme_void() +
  theme(plot.background = element_rect(fill = bkg_col, colour = bkg_col))
p <- cowplot::ggdraw(p) + theme(plot.background = element_rect(fill = bkg_col))
ggsave("copenhague-zoom.png", p, width = 12, height = 6.75)

Vue agrandie de Copenhague (Danemark). La largeur de la zone représentée est d'environ 14 km.

Pour aller plus loin

le wiki d'OpenStreetMap
osmium pour manipuler les fichiers de données OSM
osmcoastline pour extraire des traits de côte propres
l'excellent livre R for Data Science par H. Wickham et G. Grolemund. Si vous ne devez lire qu'un seul livre pour vous mettre le pied à l'étrier avec R, je recommande celui-là.
le papier par Eugster et Schlesinger décrivant le paquet R osmar est une bonne introduction à l'utilisation des données OSM dans R.

Quelques contenus apparentés à OSM déjà existants sur LinuxFr

Une dépêche par PhRæD (12/2020) : Contribuer à OpenStreetMap avec l'éditeur iD
Un journal par gUI (11/2020) : Servir ses propres tuiles OSM
Un lien par Colargol (10/2020) : OSMdata : visualiser et télécharger les données d'OSM !

Avant 2015

Un journal par jben (10/2014) : rv/hervé : recherche d'itinéraire vélo minimisant l'énergie en utilisant les données d'OSM
Une dépêche par JohannCR (06/2013) : Comment créer une carte Open Street Map
Une dépêche par Alexis de Lattre (05/2013) : OpenStreetMap : pourquoi vous devriez l'utiliser
Un journal par Jaimé Ragnagna (04/2012) : OpenStreetMap - Au dela des données : le rendu visuel
Un journal (le premier au sujet d'OSM sur LinuxFr ?) par Wawet76 (05/2006) : Cartographie Libre

Conclusion

J'espère que ce journal aura permis de démystifier un peu l'accès aux données brutes OSM et leur utilisation en amateur. De belles cartes n'attendent que quelques lignes de code pour jaillir de votre imagination :)

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Microsoft R Open: The Enhanced R Distribution

2020-11-05T13:35:38+01:00

https://mran.microsoft.com/rro

Commentaires : voir le flux Atom ouvrir dans le navigateur

Gnu R version 4.0.0 est disponible

2020-04-27T14:23:25+02:00

R est un langage de programmation et un logiciel libre destiné aux statistiques et à la science des données. La version 4.0.0 est sorti le 24 avril

La liste complète des changements est disponible ici : https://cran.r-project.org/doc/manuals/r-release/NEWS.html.

Une des évolutions est potentiellement relativement impactante sur les scripts existants. Dans les versions précédentes, les chaînes de caractères étaient par défaut transformées en factor dans les fonctions read.table et data.frame (paramètre par défaut StringsAsFactor=TRUE), ce n'est plus le cas dans la version 4.0.0, les chaînes restent des chaînes.

#version 3.5
dta<-data.frame(id=1:3, car=LETTERS[1:3])
str(dta)
'data.frame':   3 obs. of  2 variables:
 $ id : int  1 2 3
 $ car: Factor w/ 3 levels "A","B","C": 1 2 3

#version 4.0
dta<-data.frame(id=1:3, car=LETTERS[1:3])
str(dta)
'data.frame':   3 obs. of  2 variables:
 $ id : int  1 2 3
 $ car: chr  "A" "B" "C"

Personnellement, je préfére le nouveau comportement, je commençais régulièrement mes scripts par la commande :

options(stringsAsFactors = FALSE)

Ce qui n'est donc plus nécessaire.

Concernant la mise à jour. Sur Debian, pour ceux qui comme moi n'utilise pas la version de la distribution mais celle du cran, il est nécessaire de modifier le fichier sources.list

#la ligne
deb http://mon_miroir_cran/bin/linux/debian buster-cran35/
#doit être remplacé par 
deb http://mon_miroir_cran/bin/linux/debian buster-cran40

puis le classique apt update & apt upgrade

Une fois la mise à jour effectuée, il est nécessaire de réinstaller la totalité des packages (Cette réinstallation est nécessaire pour tous les OS)

Ce qui peut être réalisé pour les package du cran dans R grâce à la commande :

update.packages(ask=FALSE, checkBuilt=TRUE)

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Atelier Barcamp I. A. & Droit le 7 novembre 2017 à Paris

2017-11-02T14:33:37+01:00

Lors des six derniers mois, magistrats, avocats et juristes de l’association Open Law, dont la démarche est résolument orientée sur la production de ressources ouvertes, ont travaillé d’arrache‐pied pour créer un jeu de données de Natural Language Processing (NLP) en langue française.

Le 7 novembre prochain au Square, un événement est organisé pour faire se rencontrer juristes et développeurs afin de déterminer des cas d’usage concrets pour ce jeu de données. Affichage du plan des décisions, recherche ciblée dans la jurisprudence, extraction d’informations précises, outils de justice prédictive… Quels usages et quels services peuvent être créés grâce à ce jeu de données ? Telle est la problématique qui sera mise à l’honneur à l’occasion de ce prochain rendez‐vous, au cours duquel nous définirons ensemble les défis qui seront portés le 7 décembre prochain lors du Hackathon I. A. & Droit organisé dans le cadre du Paris Open Source Summit.

Date et lieu :

mardi 7 novembre 2017 à 18 h 30
Le Square, 3 passage Saint‐Pierre Amelot, 75011 Paris

lien nᵒ 1 : Inscription obligatoire et gratuite sur Meetup.com

Dans ce jeu de données, chaque paragraphe, de plusieurs centaines de décisions de justice récentes, a été typé à la main (parmi plus de trente catégories) grâce au logiciel libre Brat. L’objet de ce jeu de données, qui a vocation à être publié sous licence ODbL, est de permettre d’apprendre à reconnaître la structure d’une décision de justice.

Le jeu de données pourra être exploité grâce des algorithmes open source. Quant aux développements logiciels, l’analyseur XML original étant en Scala-Xml, il fera appel à des compétences en R, Python ou Scala.

Nous espérons vous retrouver nombreux pour contribuer en participant à cette aventure !

Inscription obligatoire et gratuite : https://huit.re/wyFQrPn5.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

[Parution] R et Espace (géographie) -- collection Framabook

2014-09-29T19:44:52+02:00

Bonjour à tous,

La collection Framabook (projet Framasoft) ne s'arrête pas ! Cette fois, nous proposons un ouvrage d'initiation au logiciel libre R appliqué à l'analyse géographique.

Pourquoi un tel ouvrage ? D'abord parce que R est un logiciel libre (issu du projet GNU) possédant sans doute un des plus larges éventail de fonctionnalités tant ses contributeurs l'enrichissent depuis plus de 15 ans.

Le livre R et espace est une illustration des nombreux domaines dans lesquels R peut être appliqué.

ANNONCE DE PARUTION

Groupe ElementR

R et espace. Traitement de l'information géographique

Un irremplaçable support technique pour les utilisateurs de R appliqué à l'analyse de l'information géographique!

SORTIE : le 30 septembre 2014

Un manuel pour s'initier simultanément au traitement de données géographiques et à la programmation avec R. L’éclairage est celui de l’analyse spatiale, à savoir des méthodes mises en œuvre pour l’étude des organisations dans l’espace. Accompagné de jeux de données, il peut être utilisé comme support pédagogique.

Lien direct

ISBN: 979-10-92674-06-4
Prix: 15 EUR (version papier)
Format: A5, N et B
Pages: 244 + vi
Licence: Creative Commons By-Sa

Les auteurs

Le groupe ElementR s’est constitué en 2012 au sein de l’UMR Géographie-cités pour organiser des formations au logiciel R destinées aux géographes. Huit personnes y ont contribué qui étaient alors ingénieurs, doctorants ou anciens doctorants dans ce laboratoire :

Laurent Beauguitte, chargé de recherche CNRS (UMR IDEES),
Élodie Buard, ingénieure de recherche à l'IGN,
Hadrien Commenges, post-doctorant au LEESU,
Robin Cura, doctorant à Géographie-cités (UMR 8504),
Florent Le Néchet , maître de conférences à l'Université Paris-Est Marne-la-Vallée,
Marion Le Texier, post-doctorante à l'Institut universitaire européen de Florence,
Hélène Mathian, ingénieure de recherche CNRS (UMR EVS),
Sébastien Rey-Coyrehourcq, doctorant à Géographie-cités (UMR 8504).

Association Framasoft / Collection Framabook
http://framabook.org

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Pandas, une bibliothèque pour manipuler facilement des données

2014-01-19T10:23:54+01:00

À l'occasion de la sortie de la version 0.13, je vous présente cette bibliothèque basée sur Python qui permet de travailler simplement et efficacement avec des données structurées. Jusqu'à présent, les versions se sont enchaînées rapidement mais celle-ci arrive plusieurs mois après la précédente. On peut donc espérer qu'un code développé pour cette nouvelle version demandera moins de maintenance.

Les principales possibilités sont :

récupérer des données depuis des fichiers CSV, tableaux Excel, des pages web, HDF5, etc. ;
grouper, découper, alléger, déplacer, écrire les données ;
ces données peuvent être à une ou deux dimensions, avec des manques, ou encore temporelles avec ou sans périodicité.

Pour peu que les données soient correctement formatées, pandas peut s'en sortir même dans le cas où la quantité dépasse les capacités de votre machine en traitant les sources morceaux par morceaux.

Le développement de cette bibliothèque s'inscrit dans la problématique de disposer d'outils pour manipuler de gros volumes de données dans le but de leur exploitation scientifique ou commerciale.

Note : pandas fonctionne avec la même base de code sur Python 2 et 3 mais ce n'est, peut-être, pas le cas de toutes les dépendances.

lien nᵒ 1 : Site officiel
lien nᵒ 2 : Page GitHub
lien nᵒ 3 : Les nouveautés détaillées
lien nᵒ 4 : Vidéo de présentation
lien nᵒ 5 : SciPy : portail des outils Python pour la science
lien nᵒ 6 : Découvrir pandas en 10 minutes
lien nᵒ 7 : O'Reilly - Python for data analysis
lien nᵒ 8 : Vidéo plus détaillée (3h)

Pourquoi pandas

L'objectif de pandas est d'être le meilleur outil statistique qui soit aussi bien performant, facile d'utilisation et flexible. Le logiciel existe depuis 2008 mais son développement s'est fortement accéléré avec la publication de la version 0.3 en février 2011 (le nombre de modifications pour cette version dépassait celui des modifications depuis le début de projet). Depuis les nouveautés et les corrections de bugs s'enchaînent à un rythme élevé comme le montre la paga What's new.
Pour mieux comprendre la mécanique interne de pandas, je vous suggère de consulter le blog de Wes McKinney, le leader du projet.

Comparaison avec R

Les statisticiens dans la salle doivent se demander pourquoi pandas a été développé alors que R fonctionne très bien. pandas se base sur les bonnes idées de R et s'attache à apporter les fonctionnalités manquantes. Du côté écosystème, R possède l'inestimable CRAN qui est le dépôt des différents paquets venant enrichir la bibliothèque de base, tandis que pandas profite de l'engouement autour des outils scientifiques en Python. L'aspect généraliste de Python permet également de développer l'intégralité d'une application avec un seul langage ce qui n'est pas le cas de R. Reste la licence de R (GPL) qui peut sembler un obstacle pour certaines finalités, Pandas étant sous licence BSD.

Ressources

Bien que la documentation soit étoffée, pour ceux qui souhaitent être accompagnés sur des cas concrets, il existe un livre de recettes ou bien un tutoriel. Voici également une page qui rassemble des liens qui seront intégrés à la documentation officielle dans la version suivante.

Écosystème

Pandas ne vit pas dans un monde cloisonné et sert de base ou de complément à d'autres logiciels que ce soit pour manipuler des données géographiques, faire des statistiques ou encore tendre à remplacer matplotlib pour certains usages.

Politique de développement

Cette version ayant mis un peu de temps à sortir (surtout, il y a eu quelques couacs entre l'étiquetage de cette version 0.13, la mise à jour du site et la mise à disposition sur PyPi), il a été décidé que la prochaine devrait voir le jour dans trois mois sans attendre que les nouvelles fonctionnalités soient terminées.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Sortie de R version 3.0.0

2013-04-04T21:26:28+02:00

Le projet R annonce la sortie de la version 3.0.0 du logiciel statistique du même nom (pre-release le 7 mars 2013, sortie officielle le 3 avril).

R désigne à la fois un langage de programmation et son interpréteur. Historiquement, R est un dialecte dérivé du langage S, implémenté dans le logiciel propriétaire S-PLUS. L'aventure R a débuté en 1993, mais c'est à partir des années 2000 qu'il a pris une importance majeure dans le paysage des langages destinés aux applications statistiques. R rivalise aujourd'hui avec ses concurrents SAS (Statistical Analysis System), SPSS (Statistical Package for the Social Sciences), ou STATA ; il est devenu incontournable dans certaines disciplines, notamment la biologie.

Le changement de version majeur (2.15.3 vers 3.0) ne signale pas une transition importante (voir le changelog), mais marque une évolution progressive (la version 2.0 date de 2004). La mise à jour requiert cependant une réinstallation complète.

R fonctionne de manière modulaire, avec un cœur relativement réduit, sur lequel peuvent se greffer des bibliothèques de fonctions fournies sous forme de « paquets ». R doit certainement une partie de son succès à l'activité de sa communauté, puisque plus de 4700 paquets activement maintenus sont disponibles au téléchargement sur le site officiel, sans compter les projets indépendants, comme bioconductor.

R est avant tout destiné au traitement et à l'analyse des données : tests statistiques, data mining, et production de graphiques de qualité (destinés à la publication). Le langage est de plus en plus utilisé pour produire des scripts portables, ou pour réaliser des simulations numériques (MCMC, typiquement). Réputé inefficace en tant que langage interprété, la possibilité de coder les fonctions critiques en C tout en utilisant la syntaxe « haut-niveau » de R ouvre une niche écologique significative pour le développement d'applications statistiques.

lien nᵒ 1 : Page officielle du projet R
lien nᵒ 2 : Liste des paquets disponibles
lien nᵒ 3 : R graph gallery : illustration des possibilités graphiques de R

Au cours des dernières années, R s'est en effet enrichi pour fournir des fonctionnalités destinées au développement d'applications complexes : les classes de type S4 pour la programmation objet (typage, héritage, etc.) ; la bibliothèque « compiler » qui permet de compiler à la volée, et ainsi d'obtenir une accélération significative de l'exécution des scripts ; et la bibliothèque « parallel » qui, comme son nom l'indique, implémente un embryon de programmation multi-threads (seulement sous les systèmes permettant fork()).

Il est évidemment impossible de faire une liste exhaustive des avantages réels ou supposés de R ; on peut citer :

La portabilité (GNU/Linux, BSD, Mac OS X et Windows) ;
La profusion de paquets contribués ;
Sa large diffusion (savoir coder en R est une condition souvent requise pour un job de bio-informaticien) ;
La richesse du langage de base (plusieurs milliers de fonctions disponibles sans installation de paquets) ;
La concision du code ;
La qualité de la documentation (un système automatique vérifie que chaque fonction est correctement documentée lors de la compilation des paquets).

Évidemment, on peut jouer l'avocat du diable et lister les écueils :

Un manque d'homogénéité du fait du mode de développement modulaire (pas de conventions officielles sur le nommage, les indentations, etc.) ;
Illisible si mal codé (en particulier du fait de l'imbrication des parenthèses, crochets courbes et carrés) ;
Courbe d'apprentissage assez abrupte ;
Idiomes différents de ceux du C (par exemple, les boucles for() sont à proscrire la plupart du temps).

Un exemple valant toujours mieux qu'une longue explication :

# Rien que du classique
print("Hello world!")

# Import-export
data <- read.csv("mySpreadsheet.csv")
write.table(data, "textfile.txt", sep="\t")

# Manipulation de données: 
#  on ne garde que les lignes du tableau dont la deuxième colonne 
#  est supérieure à la moyenne
data2 <- data[data[,2]>mean(data[,2]),]

#  on ajoute une colonne avec la médiane de chaque ligne
data3 <- cbind(data, apply(data, MARGIN=1, FUN=median))

# Production de graphiques et statistiques: 
#  régression x: première colonne, y:dernière colonne
pdf("myplot.pdf")
plot(data[,1], data[,ncol(data)], xlab="x", ylab="y")
abline(lm(data[,ncol(data)] ~ data[,1]))
dev.off()

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

R-project bouge, R version 2.2.0 sort

2005-10-08T22:51:37+02:00

R est un environnement utilisant un langage pour l'analyse mathématique et statistique sur ordinateur, et produit également des graphiques de très grande qualité. Il est extrêmement modulaire ce qui a grandement facilité la création de modules spécifiques par des tiers. On trouve ainsi des dizaines de modules spécifiques pour l'analyse d'un type de problème précis.

R implémente notamment en open-source le langage S (des laboratoires Bell maintenant Lucent Technologies), dont les programmes tournent quasiment sans modification avec R, ce qui en fait un outil de choix pour les recherches mettant en oeuvre les statistiques : bioinformatique, analyse de marchés financiers, analyse de données spatiales...

Le projet R est encore bien peu connu du public probablement à cause de son coté austère et ciblé. C'est pourquoi les sorties se font discrètes. Hier c'est la version 2.2.0 qui a été publiée, avec son lot de changements concernant principalement le confort d'utilisation.

R peut certes sembler rebutant pour l'étudiant souhaitant faire quelques calculs statistiques, mais - une fois pris en main - il se révèle très efficace.

lien nᵒ 1 : La page du projet
lien nᵒ 2 : Les screenshots
lien nᵒ 3 : La FAQ
lien nᵒ 4 : Quelques modules supplémentaires
lien nᵒ 5 : Un petit article wikipedia

Ce projet montre bien qu'une conception bien définie et modulaire d'un projet est source de participation extérieure, denrée hélas plus rare que ce qu'il n'y parait dans le développement libre :)

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Le projet R

2002-10-20T21:29:01+02:00

Le logiciel R est un clone libre de S-Plus, et constitue un système complet et très puissant pour la gestion et l'analyse statistique de données. Le développement est très actif, et la version 1.6 du logiciel vient de sortir récemment.

Il s'agit d'un projet pas forcément très grand public, mais qui est sans doute appelé à prendre de l'envergure, notamment quand on connaît le prix des licences de logiciels de type SAS ou SPSS.

A suivre, donc...

lien nᵒ 1 : Le site officiel
lien nᵒ 2 : Une introduction en français, par Emmanuel Paradis (format PDF)

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

LinuxFr.org : les contenus étiquetés avec « r »

Conférence RStudio : présentations accessibles en direct en ligne les 27 et 28 juillet

Décès de Leland Wilkinson, « parrain » du paquet ggplot2 de R

Préparation de figures avec R : automatiser l'ajout d'annotations manuelles

Sommaire

Le contexte en détail

L'approche proposée

Un exemple détaillé

1 - Préparation de la figure de base avec R

2 - Préparation des annotations manuelles avec Inkscape

3 - Automatisation de l'ajout des annotations manuelles à la figure générée par R

Conclusion

Une brève introduction à l'utilisation des données OpenStreetMap

Sommaire

Introduction

Vue d'ensemble de l'écosystème OpenStreetMap

Comment télécharger les données OSM

Structure des données OSM brutes

Un exemple: visualiser la géographie du Danemark

Télécharger les données

Extraire les données cibles

Péninsule du Jutland

Région de Copenhague

Dessiner les cartes

Pour aller plus loin

Quelques contenus apparentés à OSM déjà existants sur LinuxFr

Conclusion

Microsoft R Open: The Enhanced R Distribution

Gnu R version 4.0.0 est disponible

Atelier Barcamp I. A. & Droit le 7 novembre 2017 à Paris

[Parution] R et Espace (géographie) -- collection Framabook

ANNONCE DE PARUTION

Les auteurs

Pandas, une bibliothèque pour manipuler facilement des données

Pourquoi pandas

Comparaison avec R

Ressources

Écosystème

Politique de développement

Sortie de R version 3.0.0

R-project bouge, R version 2.2.0 sort

Le projet R

Décès de Leland Wilkinson, « parrain » du paquet ggplot2 de R

Atelier Barcamp I. A. & Droit le 7 novembre 2017 à Paris