集群管理软件

利康赛沃自研开发了一套基于 Slurm 作业调度的集群管理软件,该软件具有高度定制化、优化的作业调度、精细的资源管理、便捷的集群管理、等特点,为小规模 HPC 集群用户提供了强大的工具,助力其在科学研究、领域取得更好的成果。

软件是为满足小规模 HPC 集群用户的特定需求而精心打造的强大工具。它旨在高效管理计算资源、合理调度作业,为用户提供稳定、可靠且高效的高性能计算环境。

 

主要功能特点
一、作业调度功能

 

  1. 作业提交
    • 支持多种方式提交作业,包括命令行、脚本文件、图形界面等。
    • 允许用户指定作业的资源需求、运行时间等参数。
  2. 作业排队
    • 自动将提交的作业放入合适的队列中等待执行。
    • 队列可根据不同的资源需求等进行分类。
  3. 作业分配
    • 根据集群中节点的资源状态和作业需求,智能地将作业分配到合适的计算节点上。
    • 考虑因素包括 CPU 核心数、内存大小等。
  4. 作业监控
    • 实时监控作业的执行状态,包括运行时间、资源使用情况等。
    • 用户和管理员可以随时查看作业的状态信息。
  5. 作业控制
    • 用户可以对自己提交的作业进行暂停、恢复、取消等操作。
    • 管理员可以对所有作业进行强制终止等操作。

 

二、资源管理功能

 

  1. 节点管理
    • 监控集群中各个计算节点的状态,包括在线 / 离线状态、资源使用情况等。
    • 可以对节点进行禁用等操作。
  2. 资源限制
    • 为用户和作业设置资源使用上限,防止单个用户或作业占用过多资源。
    • 可以限制 CPU 核数、作业总数、GPU卡总数等。

 

三、用户管理功能
  1. 用户创建和删除
    • 创建用户功能,创建用户选择账户组功能。
    • 删除用户。
  2. 用户配额管理
    • 为每个用户设置资源配额,限制用户在一定时间内可以使用的资源总量。
    • 可以根据用户的需求和贡献度调整配额。
  3. 用户作业统计
    • 记录用户提交的作业信息,包括作业数量、执行时间、资源使用情况等。
    • 为用户管理和资源分配提供参考依据。

 

四、账户管理功能
  1. 账户创建和删除
    • 创建账户功能,多个用户可以属于同一账户,方便管理。
    • 删除账户。
  2. 账户配额管理
    • 为每个账户设置资源配额,限制账户的用户在一定时间内可以使用的资源总量。
    • 可以根据账户的需求和贡献度调整配额。
五、集群源监控功能

 

1.实时监控集群的整体状态,包括作业数量、资源使用情况、节点状态等。

2.提供可视化的监控界面,方便管理员及时了解集群的运行情况。