Journal RPCDataloader: chargement et pré-traitement de données distribué pour l'IA

11
22
avr.
2023

Introduction

On continue la lignée des utilitaires pour une grappe de calcul IA (cluster en bon franglais).
Cette fois-ci, l'objectif est de déplacer le chargement et le pré-traitement des données sur des serveurs différents de ceux qui gèrent le modèle en lui-même.

On s'intéresse plus précisément à un algorithme d’entraînement de réseau de neurones avec le framework PyTorch. Bien que la librairie que je présente (RPCDataloader) n'ait pas une très forte dépendance à PyTorch, son API est (…)

Journal scratch_manager: gestionnaire de mise en cache de jeux de données

Posté par  . Licence CC By‑SA.
21
16
déc.
2022

J'ai eu l'occasion de développer un petit logiciel open-source pour mon travail, donc j'en profite pour partager ici.

Motivation

Sur les grappes de calculs (clusters) dédiés à l'intelligence artificielle, il y a un problème assez récurrent lié au stockage et à l'accès aux données.
Dans ces installations, on trouve généralement d'un côté une baie de stockage avec des jeux de données composés de millions de petits fichiers, et de l'autre côté les nœuds de calcul qui lisent ces fichiers.
La (…)

Journal Encore des nouvelles de Fortran

33
6
mai
2021

Mon précédent article Des nouvelles de Fortran du 3 mai 2020 commençait par ces mots : « Punk is not dead, Fortran non plus ». Et voilà que dans le TIOBE Index d'avril 2021, le Fortran fait son retour dans le top 20 avec un saut de la 34e position à la 20e, après 10 ans d'éclipse. Avec un taux de 0,91 %, on pourrait se contenter de s'étonner et penser que l'on est dans le bruit (…)

Pile de logiciels libres de déploiement et gestion de grappes de serveurs ou de parc

Posté par  . Édité par Davy Defaud, claudex et Nils Ratusznik. Modéré par Pierre Jarillon. Licence CC By‑SA.
19
29
sept.
2020
Administration système

BlueBanquise est une pile de logiciels libres pour déployer et maintenir aisément un parc de serveurs ou de stations de travail sous GNU/Linux.

La pile de logiciels, bien que générique, est fortement orientée vers l’informatique à haute performance — HPC (High Performance Computing) —, et repose entièrement sur Ansible, un outil de gestion de configuration.

BlueBanquise est compatible RHEL/CentOS 7 et 8, et couvre l’installation et la configuration de l’ensemble des briques de base d’une grappe de serveurs de calcul. L’outil se veut totalement modulaire, pour permettre aux utilisateurs d’écrire leurs propres composants ou d’aisément dupliquer puis modifier ceux existants.

Journal Des nouvelles de Fortran

Posté par  (site web personnel) . Licence CC By‑SA.
33
3
mai
2020

Punk is not dead, Fortran non plus. La preuve, avec le présent journal, LinuxFr.org compte désormais en tout et pour tout sept contenus taggés "Fortran" : https://linuxfr.org/tags/fortran/public

Une évolution par les normes

Rappelons que Fortran, qui s'écrivait à l'époque FORTRAN (pour mathematical FORmula TRANslating system), est né chez IBM entre 1954 et 1957 et fait donc partie des tous premiers langages informatiques. Il fait également partie des langages normalisés, ses premières normes datant du milieu des années 60. Depuis (…)

Journal Pythran - 0.8.7

Posté par  (site web personnel) . Licence CC By‑SA.
Étiquettes :
20
17
sept.
2018

Demat'i-nal,

La mouture 0.8.7, tendrement nommée skol-loarn de Pythran, est de sortie. Rappelons que Pythran est un compilateur dédié au calcul scientifique pour Python. Il s'installe avec pip ou conda et nécessite juste un compilateur C++ qui parle le dialecte c++11 sur l'hôte. Car oui, Pythran fait partie de cette ignoble lignée des transpileurs…

Quelques liens utiles :

Profileurs mémoire MALT et NUMAPROF

Posté par  (site web personnel) . Édité par Pierre Jarillon, Davy Defaud, palm123 et claudex. Modéré par Pierre Jarillon. Licence CC By‑SA.
Étiquettes :
48
2
sept.
2018
C et C++

Outils de profilage

En calcul à haute performance — HPC (High Performance Computing) —, les problèmes liés à la mémoire deviennent de plus en plus critiques, qu’il s’agisse du contrôle de la consommation mémoire des applications, de la limitation des interactions avec le système d’exploitation (trop nombreuses allocations, trop petites allocations…) et de choix de placement (NUMA) ; et relativement peu d’outils libres permettent de profiler les applications sur ce terrain. Deux outils récemment mis en ligne apportent une part de réponse à ces questions.

La suite de l’article présentera MALT et NUMAPROF plus en détails…

Journal Un Python qui rivalise avec du C++

15
27
août
2017

Rencontre avec un code de calcul scientifique open-source - écrit en Python - qui tente de rivaliser avec du C++ sur des supercalculateurs, spectralDNS!

Quelques liens:

La publication initiale : https://arxiv.org/pdf/1602.03638v1.pdf
Une seconde publication : https://arxiv.org/pdf/1607.00850.pdf
Une publication plus récente : https://arxiv.org/pdf/1701.03787v1.pdf
Le dépôt GitHub : https://github.com/spectralDNS/spectralDNS

Première réaction?

Je ne sais pas quelle est votre première réaction. Moi j'y croyais pas trop. Puis j'ai potassé les articles, j'ai fait quelques tests avec le code, j'ai contacté l'auteur principal, et (…)

Journal première sortie de "DAFT Allows File Transfers"

Posté par  (site web personnel) . Licence CC By‑SA.
12
2
fév.
2016

Chers lecteurs,

J'ai le plaisir d'annoncer la première sortie de DAFT (v0.0.1).

https://github.com/UnixJunkie/daft

DAFT est un outil en ligne de commande pour transférer des fichiers de manière sécurisée, par exemple pendant une expérience computationnelle distribuée. C'est le compagnon idéal (pour les fichiers) de logiciels tels que PAR ou GNU parallel. PAR est un outil pour bouger efficacement ses données quand il n'y a pas de système de fichier distribué d’installé sur les noeuds. PAR ne nécessite pas de droits root (…)

Où vont les supercalculateurs ? D’où on vient, quels sont les problèmes, où l’on va (1re partie)

Posté par  . Édité par Davy Defaud, Ontologia, Thomas Debesse, Nÿco, patrick_g, Benoît, Yala, Benoît Sibaud et palm123. Modéré par Nÿco. Licence CC By‑SA.
121
5
juil.
2013
Technologie

Il y a un bail, j’avais dit que je voulais un jour parler des architectures haute performance, et de leur potentiel futur. Je me lance donc ici, en espérant que certains se permettront de me corriger là où j’aurai fait des erreurs (sans doute nombreuses).

Je vais diviser ces explications en trois parties. La première (qui suit juste après) va juste faire un rappel sur les architectures « séquentielles » de base. La deuxième partie (à venir très bientôt) s’occupera de décrire les systèmes multi‐processeurs et multi‐cœurs, ainsi que la raison de leur existence. J’en profiterai pour aussi expliquer les problèmes récurrents liés à l’exploitation de systèmes haute performance. La dernière partie parlera des efforts effectués en ce moment pour fabriquer les supercalculateurs du futur (disons à l’horizon 2020-2025).

Journal HPC Magazine : Le média de référence du HPC et du Big Data.

Posté par  (site web personnel) . Licence CC By‑SA.
21
16
mai
2013

Sommaire

Introduction

Je vais parler d'un magazine qui, à l'heure actuelle, en est à son troisième numéro et pour lequel je n'ai pas vu d'informations sur ce site (n'hésitez pas à hurler si c'est faux). Pour situer mon journal, je n'ai rien à voir avec la rédaction de ce magazine et je suis juste un lecteur de celui-ci car c'est mon domaine (…)