一、方案概述
本公司的HPC集群方案专门针对小规模的 HPC 集群用户而设计,旨在为其提供方便的计算与高效的数据处理能力,满足科研、工程模拟、等多领域的特定需求。通过精心挑选的硬件设备与高效的软件技术相结合,以较小的成本实现快速计算与可靠方便运行,为小规模用户提供高性价比的高性能计算解决方案。
二、硬件组成
- 管理节点:设立专门管理节点,同时作为存储节点和登录节点。用于集群的集中管理和监控,方便用户对整个集群进行统一配置与调度。用户可通过该节点登录集群进行集群的管理和资源的使用。
- 计算节点:选用高性能服务器,配备多核心处理器,具备大容量内存及高速固态硬盘,为高强度计算任务提供有力支撑。
- 存储系统:管理节点兼做存储节点,配置高性能raid卡设备,同时采用raid6冗余策略,确保数据安全性。方便用户集中管理存储资源,实现数据的统一存储与调配。
- 存储计算网络:部署高速以太网交换机,或者可选用 InfiniBand 等高速网络技术,保障数据传输的高效与安全。
-
BMC 网络:独立的 BMC 网络,将所有服务器的 BMC 端口连接到 BMC 交换机。BMC 网络与业务网络隔离,确保带外管理的安全性和稳定性。通过 BMC 网络,管理员可以远程查看服务器的硬件故障,已经远程进程开关机和重启动作。
三、网络拓扑图
四、软件环境
- 操作系统:选择Centos或者Rocky系统并进行优化,提升系统性能。
- 并行计算框架:安装 MPI、OpenMP 等实现并行计算,提高计算效率。
- 作业调度系统:部署 Slurm作业调度,合理分配调度计算任务,充分利用集群资源。
- 集群管理软件:公司自研的集群管理软件,可以通过web页面使用,管理集群。
五、应用场景
- 科学研究:物理模拟、化学计算、生物信息学等领域。
- 工程模拟:航空航天、汽车制造、电子设计等领域。
六、方案优势
- 高性能:提供强大计算与高效数据处理能力。
- 易于管理:管理节点集中管理监控,方便用户对集群进行统一配置与调度。作业调度系统自动分配任务,提高资源利用率。
- 可扩展性:可根据需求扩展计算节点、存储容量与网络带宽。
- 用户集中管理:确保用户使用集群资源的安全性和合理性,提高管理效率。
- 超高性价比:特别适合小规模用户,以较低的成本实现高性能计算需求。