利康赛沃自研开发了一套基于 Slurm 作业调度的集群管理软件,该软件具有高度定制化、优化的作业调度、精细的资源管理、便捷的集群管理、等特点,为小规模 HPC 集群用户提供了强大的工具,助力其在科学研究、领域取得更好的成果。
软件是为满足小规模 HPC 集群用户的特定需求而精心打造的强大工具。它旨在高效管理计算资源、合理调度作业,为用户提供稳定、可靠且高效的高性能计算环境。
主要功能特点
一、作业调度功能
-
作业提交
- 支持多种方式提交作业,包括命令行、脚本文件、图形界面等。
- 允许用户指定作业的资源需求、运行时间等参数。
-
作业排队
- 自动将提交的作业放入合适的队列中等待执行。
- 队列可根据不同的资源需求等进行分类。
-
作业分配
- 根据集群中节点的资源状态和作业需求,智能地将作业分配到合适的计算节点上。
- 考虑因素包括 CPU 核心数、内存大小等。
-
作业监控
- 实时监控作业的执行状态,包括运行时间、资源使用情况等。
- 用户和管理员可以随时查看作业的状态信息。
-
作业控制
- 用户可以对自己提交的作业进行暂停、恢复、取消等操作。
- 管理员可以对所有作业进行强制终止等操作。
二、资源管理功能
-
节点管理
- 监控集群中各个计算节点的状态,包括在线 / 离线状态、资源使用情况等。
- 可以对节点进行禁用等操作。
-
资源限制
- 为用户和作业设置资源使用上限,防止单个用户或作业占用过多资源。
- 可以限制 CPU 核数、作业总数、GPU卡总数等。
三、用户管理功能
-
用户创建和删除
- 创建用户功能,创建用户选择账户组功能。
- 删除用户。
-
用户配额管理
- 为每个用户设置资源配额,限制用户在一定时间内可以使用的资源总量。
- 可以根据用户的需求和贡献度调整配额。
-
用户作业统计
- 记录用户提交的作业信息,包括作业数量、执行时间、资源使用情况等。
- 为用户管理和资源分配提供参考依据。
四、账户管理功能
-
账户创建和删除
- 创建账户功能,多个用户可以属于同一账户,方便管理。
- 删除账户。
-
账户配额管理
- 为每个账户设置资源配额,限制账户的用户在一定时间内可以使用的资源总量。
- 可以根据账户的需求和贡献度调整配额。
五、集群源监控功能
1.实时监控集群的整体状态,包括作业数量、资源使用情况、节点状态等。
2.提供可视化的监控界面,方便管理员及时了解集群的运行情况。