Direction du numérique (DN)


Le gestionnaire de travaux Slurm

Organisation de Slurm
Partitions
Topologie des nœuds pour chaque partition
Accounts

 

Le cluster de calcul étant un système mutualisé, il est nécessaire d'utiliser un logiciel pour gérer le partage des ressources de façon (à peu près) équitable. Ce logiciel appelé Slurm entre dans la catégorie des gestionnaires de travaux ou batch manager.

Tous les calculs sur le cluster doivent se faire au travers de Slurm pour permettre à chacun de travailler dans les meilleures conditions. Le lancement des calculs est effectué via l'exécution d'un script de soumission avec une commande Slurm.

Le gestionnaire de travaux Slurm est mis en service avec le cluster 2014. Il prend également en compte les serveurs acquis en 2010.

 

Organisation de Slurm

 

 

 

Partitions

La répartition des serveurs est effectuée sous forme de partitions :

  •  compute : cette partition regroupe les noeuds 2014. Il s'agit des serveurs les plus performants du cluster. Ils doivent être utilisés pour les calculs parallèles de plus de 12 cœurs en priorité car ils sont équipés de cartes réseau à faible latence (Infiniband INTEL® TRUE SCALE FABRIC EDGE SWITCH 12200BS23MM). 
  • procs12 : cette partition regroupe des nœuds 2010. Elle est destinée à deux types de traitements :
    • les jobs séquentiels
    • les jobs parallèles jusqu'à 12 cœurs
  • interac: cette partition est composée de nœuds de 2010. Elle est destinée uniquement aux logiciels interactifs et graphiques
  • lfcr : serveurs 2010 du LFC-R.

L'utilisateur doit donc préciser la partition (type de matériel) la plus adaptée dans le script de soumission. Par défaut, les jobs sont exécutés sur la partition "compute".

 

 

Topologie des nœuds pour chaque partition

Voir le chapitre "Caractéristiques des nœuds de calcul" dans
présentation du cluster.

 

 

Accounts

Chaque utilisateur est rattaché à un ou plusieurs "accounts" Slurm en fonction de sa situation : un account s'apparente à un groupe d'utilisateurs. Le job de soumission doit intégrer cette information : par défaut, le job sera soumis dans l'account "uppa".

Accounts existants :

  • uppa : pour tous les utilisateurs du cluster

  • ecp : pour les utilisateurs de l'ECP

  • ipra : pour les utilisateurs de l'IPRA (LFC-R, LMAP, SIAME)

  • lfcr : pour accéder à la partition "lfcr"

  • tandem : pour les utilisateurs du projet Tandem

L'account entre en compte dans le calcul de priorité du job par l'intermédiaire de la QOS (Quality of Service) qui lui est associée (voir § priorités pour plus de détails) :

  • uppa et lfcr obtiennent la priorité de base

  • les autres accounts obtiennent une priorité supérieure pendant un temps donné. Ce temps (nombre d'heures annuel) est proportionnel au nombre d'heures de calcul disponibles (2.000.000 h) et à la contribution financière du groupe : ecp (labo), ipra (labo), tandem (projet). Pour chacun de ces accounts, les heures prioritaires sont attribuées par mois : au début de chaque mois, les accounts ecp, ipra et tandem ont accès à un 1/12 de leurs heures prioritaires annuelles, et ce pour la durée du mois.

    Il est important de ne pas gaspiller ces heures.