计算资源

硬件资源

当前位置: 首页 > 计算资源 > 硬件资源

    计算资源


    华中农业大学超算平台集群计算资源包含2类资源,一类为HPC算力(x86),一类为HPC算力(ARM),其中x86资源包含:2台登录节点、58台计算节点、3台大内存节点;ARM 资源包含:1台运维节点、2台登录节点、2台管理节点、43台计算节点、1台NPU节点、3台大内存节点。


    各节点详细硬件配置如下:

    节点类型
    算力类型
    节点名称
    节点数量
    CPU型号
    核心数
    内存
    登录节点x86

    cli_X86_01

    cli_X86_02

    2

    2 颗Intel Xeon Sliver 4316处理器

    单颗处理器核心20 核,主频2.3GHz

    512G 

    (16*32GB)

    计算节点x86

    agent_X86_01

    ~

    agent_X86_58

    58

    2 颗Intel Xeon Platinum 8358P处理器

    单颗处理器核心32 核,主频2.6GHz

    512G

    (16*32GB)

    大内存节点x86

    fat_agent_X86_01

    ~

    fat_agent_X86_03

    3

    2 颗Intel Xeon Platinum 8358P处理器

    单颗处理器核心32 核,主频2.GHz

    2048G

     (32*64GB)

    运维节点arm
    eSightSever1

    2颗国产ARM架构鲲鹏920处理器

    单颗处理器核心32 核,主频2.6GHz

    64G

    (2*32GB)

    管理节点arm

    master_01

    master_02

    2
    2 颗国产ARM架构鲲鹏920

    处理器 单颗处理器核心64 核,主频2.6GHz

    512GB

     (16*32GB)

    登录节点arm

    cli_ARM_01

    cli_ARM_02

    2

    2 颗国产ARM架构鲲鹏920 处理器

    单颗处理器核心64 核,主频2.9GHz

    512GB

     (16*32GB)

    计算节点arm

    agent_ARM_01

    ~

    agent_ARM_43

    43

    2 颗国产ARM架构鲲鹏920 处理器

    单颗处理器核心64 核,主频2.9GHz

    512GB

     (16*32GB)

    NPU节点
    armAI-node
    1

    4颗国产ARM架构鲲鹏 920 处理器;8 路昇腾NPU AI处理器,单AI处理器规格为313TFlops@FP16,64GB HBM

    单颗处理器核心48 核,主频2.6GHz;8 昇腾NPU AI处理器,单AI处理器规格为313TFlops@FP16,64GB HBM

    1024G

    (32*32GB)

    大内存节点arm

    fat_agent_ARM_01

    ~

    fat_agent_ARM_03

    3

    2 颗国产ARM架构鲲鹏920 处理器

    单颗处理器核心64 核,主频2.9GHz

    2048G

    (32*64GB)


    存储资源


    存储资源包含1框8节点华为全闪存储OceanStor Pacific 9950,4框8节点华为大容量存储OceanStor Pacific 9550,其中9550采用DPC+标准协议组网场景,2个25G端口上行连到业务面接入交换机,每节点2个100GE端口接入到计算存储接入交换机,1个GE端口连到带外管理接入交换机。9950采用DPC组网场景,每节点2个100GE端口接入到计算存储接入交换机,1个GE端口连到带外管理接入交换机。


    全闪存储OceanStor Pacific 9950单节点数据盘10块7.68TB SSD,总体提供可用容量460TB。大容量存储OceanStor Pacific 9550 单节点数据盘60块16TB SATA,单节点缓存盘4块1.6TB NVME SSD,提供可用容量5.8PB。


    网络资源


    网络资源包含22台交换机、2台防火墙。集群网络分为四个网络平面,计算/存储网络、业务面网络、带外管理网络、外网接入区。


    计算/存储网络采用RoCE网络技术,通过AI人工智能等RoCEv2分布式应用提供“无丢包、低时延、高吞吐”的网络环境,满足分布式应用的高性能需求;管理网络采用Spine-Leaf架构,用于管理节点上集群管理软件收集集群各个节点状态信息(如CPU状态、内存使用率、磁盘使用率、在线状态等),并实现管理功能(如时间同步、集群部署、用户管理、作业调度等);带外管理网络通过SNMP技术,带外管理网络和设备的各种状态,主要用于网络设备、计算节点、存储节点等带外监控。


    集群整体架构


    计算资源


    本集群在2018年新购置的联想集群基础上,将2014年购置的曙光集群并入其中,共计2个管理节点,4个登陆节点,155个刀片计算节点,2个GPU节点,6个八路胖节点,各节点详细硬件配置如下:

    节点类型公司投入使用年份节点名称节点数量CPU型号核心数内存
    管理节点联想2019.2mn011Intel(R) Xeon(R) Gold 5115 CPU @ 2.40GHz2096GB
    备用管理节点(登录节点)联想2019.2mn021Intel(R) Xeon(R) Gold 5115 CPU @ 2.40GHz2096GB
    登录节点曙光2014.12login01-044Intel(R) Xeon(R) CPU E5-2630 v2 @ 2.60GHz1264GB
    刀片计算节点1联想2019.2c01n01-c04n0345Intel(R) Xeon(R) Gold 6150 CPU @ 2.70GHz36384GB
    刀片计算节点2联想2019.2c04n04-c07n1150Intel(R) Xeon(R) Gold 6150 CPU @ 2.70GHz36192GB
    刀片计算节点3曙光2014.12sg01-3030Intel(R) Xeon(R) CPU E5-2680 v2 @ 2.80GHz20128GB
    刀片计算节点4曙光2014.12sg31-6030Intel(R) Xeon(R) CPU E5-2680 v2 @ 2.80GHz20256GB
    GPU节点1联想2019.2gpu011Intel(R) Xeon(R) CPU E5-2680 v2 @ 2.80GHz36(两块GPU加速卡,P100)512GB
    GPU节点2曙光2014.12gpu021Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz20(两个GPU加速卡,Tesla K40m)256GB
    胖节点1联想2019.2s001-s0044Intel(R) Xeon(R) Platinum 8160 CPU @ 2.10GHz1922TB
    胖节点2曙光2014.12s0051Intel(R) Xeon(R) CPU E7-8850 v2 @ 2.30GHz964TB
    胖节点3曙光2014.12s0061Intel(R) Xeon(R) CPU E7-8850 v2 @ 2.30GHz962TB


    存储资源


    本集群公共存储采用联想DSS高性能存储(IBM ESS同架构),文件系统采用HPC行业广泛使用的IBM GPFS (现名为 IBM Spectrum Scale)文件系统。

    公共存储硬件由2套DSS存储组成,每套DSS存储含2台IO节点和6台84盘位磁盘柜,总计4台IO节点,12台磁盘柜,1000余块8TB硬盘。所有硬盘由GPFS文件系统管理,采用了GPFS Declustered RAID冗余策略,实现了8+2数据冗余,并具有统一的用户映像(即所有硬盘由文件系统虚拟成一个data pool,可挂载在单一目录下),实测存储读写带宽达50GB/s。系统挂载目录为/public,可用容量约为5.5PB(1PB=1024TB)。

    部分课题组采购了存储硬件挂载集群上,相应课题组的用户可直接使用。这部分的存储性能不及公共存储,如有大规模对存储IO要求较高的作业,建议在公共存储上进行。

    存储使用注意事项:为了平衡存储的性能和利用率,GPFS配置的 sub block size(硬盘空间分配的最小尺寸)为128K,即比较小的文件(十几KB,几十KB),其占据的硬盘空间为128KB,因此对于比较小的文件(如解压后的软件源码包等)建议及时删除,减少磁盘空间浪费。


    网络资源


    集群存储节点、计算节点、以及登录节点之间用2套网络进行互联。

    存储网络:采用56Gbps的Infiniband网络,存储网络和计算网络采用同一网络;

    管理网络:采用千兆以太网,主要用于集群各节点间互联及管理系统;BMC硬件管理网络复用管理网络。

    内网网络:登录节点login03配备了内网万兆光纤,直连到二综B座的生物信息室(B111)及附近的办公室,以便于大量数据的上传下载(速度可达100MB/s)。有大量数据传输的用户可联系B111的同学或者管理员帮忙。实验室测序平台测序仪也通过内网直连集群,测序仪下机数据如在本集群存储和分析,可由测序平台负责人直接将其上传到相应目录后再由用户拷贝到自己的账号下分析,避免使用移动硬盘来回拷贝,节省时间。

华中农大公众号