Contenus
afficher
Commandes de gestion de vos « jobs » : Mémo
Rapport d’informations du job actif ou terminé :
sacct -j job-id
Soumettre un job
Le script contiendra généralement une ou plusieurs commandes srun pour lancer des tâches parallèles.
sbatch script.slurm sbatch -x node037 my_script.sh -> soumet en excluant un noeud de calcul
Annuler un job
scancel job-id
Information sur les partitions, les noeuds
sinfo
Liste les nœuds libres
Mentionne aussi les partitions qui les intègre.
sinfo --states=idle
États possibles d’un nœud
- mix : ressources disposant des quelques cœurs et de mémoire
- idle : disponible pour demander des ressources consommables
- drain : indisponible
- drng : exécute actuellement un travail pour un dernier job. Refuse tout nouveau job
- alloc : ressources entièrement allouées
- down : indisponible
États de vos jobs
squeue --me
Les états possibles
- BF BOOT_FAIL Job terminé en raison d’un échec de lancement.
- CA CANCELLED Le job a été explicitement annulé.
- CD COMPLETED Le job a terminé.
- CF CONFIGURING Le job s’est vu allouer des ressources, mais il attend qu’elles soient prêtes.
- CG COMPLETING Le job est en cours d’achèvement.
- DL DEADLINE Job terminé à la date limite.
- F FAILED Le job s’est terminé avec un code erreur.
- NF NODE_FAIL Job terminé en raison de la défaillance d’un ou plusieurs nœuds.
- OOM OUT_OF_MEMORY Job arrêté, dépassement mémoire.
- PD PENDING Le job est en attente d’allocation de ressources.
- PR PREEMPTED Le job s’est terminé pour cause de préemption..
- R RUNNING Le job est en exécution.
- RD RESV_DEL_HOLD Le job est en attente après que la réservation demandée ait été supprimée.
- RF REQUEUE_FED Job en cours de requête par une fédération.
- RH REQUEUE_HOLD Job retenu en train d’être remis en file d’attente.
- RQ REQUEUED Job en cours d’achèvement remis en file d’attente.
- RS RESIZING Le job est sur le point de changer de taille..
- SI SIGNALING Le job est en cours de signalisation.
- SE SPECIAL_EXIT Le travail a été remis en file d’attente dans un état spécial.
- SO STAGE_OUT Le job est en train de mettre à disposition des fichiers.
- ST STOPPED Job stoppé, les ressources allouées sont encore disponibles.
- S SUSPENDED Job suspendu, ressources réallouées.
- TO TIMEOUT Job terminé, il a atteint sa limite de temps.
Job en temps réel
Soumet un job en temps réel. Beaucoup d’options existent.
srun commande et paramètres
Options possibles d’un script sbatch
#SBATCH --partition=nom de la partition (normal ou long…)#SBATCH --job-name=nom du job au choix#SBATCH --output=nom du fichier dans lequel sera enregistré la sortie standard#SBATCH --error=nom du fichier pour stocker les erreurs#SBATCH --input=nom du fichier de l’entrée standard#SBATCH --open-mode=mettre "append" pour écrire dans le fichier existant, "truncate" pour réinitialiser les fichiers de sortie#SBATCH --mail-type=<BEGIN,END,FAIL,TIME_LIMIT,TIME_LIMIT_50,...>Cas d’envoi d’un mail#SBATCH--sockets-per-node=1 ou 2 possible#SBATCH --threads-per-corenombre de thread par coeur, sans effet sur la plateforme MatriCS, les nœuds ne sont pas multithreadé (demande possible.)#SBATCH --cores-per-socket=Nombre de cœurs par socket#SBATCH --cpus-per-task=nombre de CPU attribuée à chaque tâche#SBATCH --ntasks=nombre de tâche- #SBATCH –mem-per-cpu=mémoire vive attribué à chaque cœur
#SBATCH --ntasks-per-node=nombre de tâche par nœud.
Variable d’environnement SBATCH
- SLURM_JOB_ID : identifiant du job
SLURM_JOB_NAME: Nom du jobSLURM_JOB_NODELIST: Liste des nœuds utilisésSLURM_SUBMIT_HOST: serveur à partir le job a été lancéSLURM_SUBMIT_DIR: Répertoire dans lequel le job a été lancéSLURM_JOB_NUM_NODES: Nombre de nœuds demandésSLURM_NTASKS_PER_NODE: Nombre de cœurs demandés par nœudsSLURM_JOB_CPUS_PER_NODE: Nombre de thread par nœud