技术能力

  公司负责HPC技术业务的工程师,在服务器厂商有10+年的HPC项目实施规划经验,负责规划实施过单节点到几百节点的HPC集群几百套,基本能解答用户提出的各种问题,具体能力如下。

 

(一)规划与设计

 

1、需求分析

  • 能够与不同类型的用户(科研团队、企业数据中心等)深入沟通,准确把握其对 HPC 高性能集群在计算能力、存储容量、数据传输速度等方面的需求。

2、架构规划

  • 根据需求,设计出合理的 HPC 集群架构。擅长选择合适的计算节点(如确定 CPU 核心数、频率、内存大小等参数)、存储设备(考虑磁盘类型、RAID 级别、存储网络协议等)和网络类型(千兆、万兆,Infiniband网登)

3、软件选型与集成

  • 在操作系统方面,公司主要基于主流的操作系统(Centos,Rocky)在 HPC 集群中的应用,能根据集群特点和用户习惯进行选择。对于集群管理软件,主要以 Slurm为主,能够根据集群规模和作业类型确定合适的软件,并将其与其他必要的软件(如并行文件系统软件、监控软件等)进行集成,构建完整的集群软件环境。

 

(二)硬件安装与配置

 

1、硬件部署

  • 具备实际的硬件安装技能,能够按照设计方案准确无误地安装计算节点、存储设备和网络设备。在安装过程中,严格遵守电气安全规范和设备安装指南,确保硬件设备的物理连接正确、稳固。

2、硬件初始化与测试

  • 在硬件安装完成后,能够进行全面的初始化操作,包括设置硬件设备的 IP 地址、子网掩码等网络参数,对存储设备进行格式化和分区等。并且,可以运用专业的测试工具(件进行性能测试,及时发现并解决硬件存在的潜在问题。

 

(三)软件安装与部署

 

1、操作系统安装

  • 高效地部署操作系统。在安装过程中,能够进行自定义配置,如设置文件系统类型、安装必要的驱动程序等,确保操作系统能够充分发挥硬件的性能。

2、集群作业调度软件安装

  • 对于选定的集群管理软件(如 Slurm),能够按照官方文档进行准确安装,并根据集群的实际情况进行定制化配置。包括设置作业队列、定义用户权限、配置资源分配策略等,使集群管理软件能够有效地管理集群资源并调度作业。

3、应用软件部署

  • 能够将各种 HPC 应用程序(如科学计算软件、数据分析工具等)部署到集群环境中。了解不同应用程序的安装要求,如依赖库的安装、环境变量的设置等,确保应用程序在集群上能够正常运行。同时,还能根据应用程序的特点,对其进行初步的优化配置,以提高运行效率。

 

(四)性能优化与调整

 

1、硬件性能优化

  • 当发现硬件性能出现下降时,能够对硬件进行优化调整。对于存储性能问题,能够优化存储的 RAID 级别、调整缓存策略等。还能根据硬件的使用年限和负载情况,提出硬件升级建议,如增加内存容量、更换更快的网络接口卡等。

2、软件性能优化

  • 在软件方面,对操作系统、集群管理软件和应用程序都有丰富的优化经验。对于操作系统,可以调整内核参数(如网络缓冲区大小、文件系统缓存等)以提高性能;对集群管理软件,优化作业调度算法和资源分配策略;对应用程序,从代码编译选项、并行化策略等方面进行优化,提高其在集群上的运行速度。

 

(五)故障诊断与修复

 

1、硬件故障排查

  • 当硬件出现故障时,能够迅速定位故障源。

2、软件故障处理

  • 在软件故障方面,对于操作系统崩溃、集群管理软件异常、应用程序出错等情况,能够根据日志文件、错误提示等信息进行分析诊断。例如,如果 Slurm 调度软件出现作业无法提交的情况,能够检查配置文件是否正确、服务是否正常运行等。能够运用相关的修复工具和技术手段(如重新安装软件、修复损坏的配置文件等)来解决软件故障,确保集群的正常运行。

3、集群重新调试

  • 当集群出现重大问题时,可以在短时间内备份用户数据后,重新安装系统后,重调集群系统。