科学计算集群

一、方案概述

 

本公司的HPC集群方案专门针对小规模的 HPC 集群用户而设计,旨在为其提供方便的计算与高效的数据处理能力,满足科研、工程模拟、等多领域的特定需求。通过精心挑选的硬件设备与高效的软件技术相结合,以较小的成本实现快速计算与可靠方便运行,为小规模用户提供高性价比的高性能计算解决方案。

 

二、硬件组成

 

  1. 管理节点:设立专门管理节点,同时作为存储节点和登录节点。用于集群的集中管理和监控,方便用户对整个集群进行统一配置与调度。用户可通过该节点登录集群进行集群的管理和资源的使用。
  2. 计算节点:选用高性能服务器,配备多核心处理器,具备大容量内存及高速固态硬盘,为高强度计算任务提供有力支撑。
  3. 存储系统:管理节点兼做存储节点,配置高性能raid卡设备,同时采用raid6冗余策略,确保数据安全性。方便用户集中管理存储资源,实现数据的统一存储与调配。
  4. 存储计算网络:部署高速以太网交换机,或者可选用 InfiniBand 等高速网络技术,保障数据传输的高效与安全。
  5. BMC 网络:独立的 BMC 网络,将所有服务器的 BMC 端口连接到 BMC 交换机。BMC 网络与业务网络隔离,确保带外管理的安全性和稳定性。通过 BMC 网络,管理员可以远程查看服务器的硬件故障,已经远程进程开关机和重启动作。

 

三、网络拓扑图

 

科学计算集群

 

四、软件环境

 

  1. 操作系统:选择Centos或者Rocky系统并进行优化,提升系统性能。
  2. 并行计算框架:安装 MPI、OpenMP 等实现并行计算,提高计算效率。
  3. 作业调度系统:部署 Slurm作业调度,合理分配调度计算任务,充分利用集群资源。
  4. 集群管理软件:公司自研的集群管理软件,可以通过web页面使用,管理集群。

 

五、应用场景

 

  1. 科学研究:物理模拟、化学计算、生物信息学等领域。
  2. 工程模拟:航空航天、汽车制造、电子设计等领域。

 

六、方案优势

 

  1. 高性能:提供强大计算与高效数据处理能力。
  2. 易于管理:管理节点集中管理监控,方便用户对集群进行统一配置与调度。作业调度系统自动分配任务,提高资源利用率。
  3. 可扩展性:可根据需求扩展计算节点、存储容量与网络带宽。
  4. 用户集中管理:确保用户使用集群资源的安全性和合理性,提高管理效率。
  5. 超高性价比:特别适合小规模用户,以较低的成本实现高性能计算需求。