Forum général.petites-annonces Stage administration système HPC chez EDF

Posté par  (site web personnel) .
Étiquettes : aucune
3
16
déc.
2010
Bonjour,

Nous cherchons actuellement des stagiaires pour de l'administration
système au sein de EDF sur les calculateurs hautes performances.
Nous proposons des stages de niveaux bac+4/+5 d'une durée de 6 mois
environ pour des personnes intéressées par l'administration système
et l'environnement GNU/Linux. Les sujets disponibles sont les suivants :

- Étude et conception d'une solution de gestion de configuration pour
les clusters de calcul haute performance [1]

Les clusters de calculs haute performance sont composés d'une grande
quantité de systèmes possédant chacun des informations de
configuration, par nature très réparties. Pour une bonne gestion et un
bon suivi de ces configurations et de leurs modifications, il est
nécessaire de les centraliser en mettant en place une solution de
gestion de configuration afin de garantir un certain niveau de
cohérence. Des outils logiciels existent déjà pour traiter ce type de
problématique : Puppet, Chef, CFEngine, etc. L'objectif de ce stage est
d'évaluer ces solutions afin de déterminer la plus adaptée à
l'environnement, de concevoir une architecture d'intégration avec un
outil de gestion de version (Subversion, Git, etc) et d'exécution
parallèle (MCollective, ClusterShell, Capistrano, etc) et de définir
un plan d'actions pour le déploiement sur les clusters de calcul haute
performance de EDF.

- Évaluation et intégration d'une solution de surveillance répartie
large échelle pour les clusters de calcul haute performance [2]

Les clusters de calculs haute performance sont composés d'une grande
quantité de systèmes à surveiller automatiquement (monitoring) afin de
détecter les pannes logicielles et matérielles au plus vite et de
simplifier leur diagnostic. Aujourd'hui, les clusters de calcul de EDF
sont surveillés à l'aide de la solution de monitoring open source
Nagios. Afin de faire face aux problèmes de passage à l'échelle
(« scalabilité ») avec l'augmentation continue du nombre de systèmes à
surveiller sur les clusters de calcul, il est nécessaire d'évaluer de
nouvelles solutions plus performantes. L'objectif de ce stage est
d'évaluer la solution de surveillance distribuée Shinken
(http://www.shinken-monitoring.org/) pour étudier ses possibilités, ses
performances et la faisabilité de sa mise en oeuvre sur les clusters de
calcul haute performance du groupe EDF.

- Étude de la solution de gestion de ressources SLURM pour les
clusters de calcul haute performance [3]

Les clusters de calculs haute performance sont composés d'un très grand
nombre de coeurs de calcul à partager entre les utilisateurs. Afin de
gérer au mieux cette mutualisation des systèmes de calcul, des
gestionnaires de ressources sont utilisés dans le domaine du HPC1 :
Torque, MOAB, Grid Engine, LSF, LoadLever, etc. L'objectif de ce stage
est d'étudier la solution de gestion de ressource open source SLURM
(https://computing.llnl.gov/linux/slurm/) afin d'évaluer la pertinence
de sa mise en oeuvre sur les clusters de calcul de EDF, notamment pour
ses fonctionnalités de gestion multi-clusters.

Dans ces stages, vous serez amenés à étudier et à utiliser des
logiciels libres. Vous serez encadrés par des ingénieurs ayant un très
bon bagage technique dans le domaine du HPC, et plus généralement
dans le système GNU/Linux. Ces expériences seront très valorisantes
si vous souhaitez travailler dans ce domaine.

Si vous êtes intéressés envoyez un mail + CV à :
(stephan.gorget [at] edf [dot] fr) et (remi.palancher [at] edf [dot] fr)


Stéphan Gorget et Rémi Palancher

Annonces sur le site officiel (edfrecrute) :

- Etude et conception d'une solution de gestion de configuration pour
les clusters de calcul haute performance :
[1] http://agregateur.kimladi.fr/widget/ZuU11CkBGoKc/job/?agk=1f(...)

- Evaluation et intégration d'une solution de surveillance pour les
clusters de calcul haute performance :
[2] http://agregateur.kimladi.fr/widget/ZuU11CkBGoKc/job/?agk=80(...)

- Etude de la solution de gestion de ressources SLURM pour les clusters
de calcul haute performance :
[3] http://agregateur.kimladi.fr/widget/ZuU11CkBGoKc/job/?agk=0f(...)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.