InfiniBand网络的优势
部署InfiniBand网络在高性能计算(HPC)、人工智能训练、大规模数据分析和云计算等领域具有显著优势,主要体现在以下几个方面:
先列个表汇总:
特性 | InfiniBand | 高带宽以太网 |
延迟 | <1μs | 10~100μs |
协议栈开销 | RDMA(零拷贝) | TCP/IP(需CPU参与) |
扩展性 | 胖树无阻塞拓扑 | Clos拓扑,依赖大二层 |
典型场景 | HPC、AI训练、超算 | 通用云计算、企业网络 |
成本 | 较高(专用硬件) | 较低(规模化生产) |
具体而言:
1. 极低延迟
特性:InfiniBand的端到端通信延迟可低至 微秒级(通常<1μs),远低于传统以太网(数十到数百微秒)。
应用场景:HPC中的MPI(消息传递接口)通信,加速跨节点同步;AI分布式训练中梯度参数的快速聚合(如NVIDIA NCCL库依赖低延迟)。
2. 超高带宽
特性:支持当前主流 200Gbps HDR 和 400Gbps NDR 标准,未来可达 800Gbps XDR。基于通道绑定(LAG)可进一步扩展带宽(如4x HDR=800Gbps)。
应用场景:
大规模科学计算(如气象模拟、基因组分析)中的海量数据传输GPU集群间显存直接访问(GPUDirect RDMA)。
3. 高效的远程直接内存访问(RDMA)
特性:绕过操作系统内核和CPU,实现 零拷贝(Zero-Copy)数据传输。显著降低CPU利用率(相比TCP/IP协议栈节省90%以上CPU资源)。
应用场景:分布式存储(如Lustre、GPFS)中存储节点与计算节点的直接数据交换;数据库集群(如Oracle Exadata)的高吞吐事务处理。
4. 高可扩展性和无阻塞网络
特性:胖树(Fat-Tree)拓扑 支持数万节点的无阻塞通信。通过自适应路由(Adaptive Routing)和负载均衡避免网络热点。
应用场景:超算中心(如Summit、Sierra超算机均采用InfiniBand)。云原生AI训练集群(如千卡GPU集群)。
5. 高级服务质量(QoS)和流量控制
特性:基于虚拟通道(VL)和服务等级(SL)实现流量隔离。支持拥塞控制(如ECN、Quantized Congestion Notification)。
应用场景:混合负载环境(如同时运行MPI作业和存储流量);多租户云环境中保障关键任务的带宽和延迟。
6. 成熟的生态系统和兼容性
特性:与主流HPC软件栈深度集成(如OpenMPI、MVAPICH2支持InfiniBand Verbs)。支持与以太网融合(如RoCEv2/RDMA over Converged Ethernet)。
7. 能效比优势
特性:相比高带宽以太网(如400G),InfiniBand的功耗更低。通过RDMA减少CPU计算开销,间接降低整体系统能耗。
应用场景:绿色数据中心建设(如追求PUE优化);长期运行的大规模训练任务(如LLM模型训练)。
8. 与GPU计算的深度协同
特性:支持 GPUDirect RDMA,允许GPU显存直接通过网络访问。NVIDIA的NVLink和InfiniBand结合,构建GPU集群高速互联。
应用场景:AI训练(如千卡A100/H100集群);实时推理(如自动驾驶模型推理)。
InfiniBand网络部署
部署可以简单分为前期规划、安装部署两步。
一、前期规划
1.需求分析
首先需要确定集群规模,包括节点数量、未来扩展需求。因为每一个接入IB网络的计算节点均需要部署单独的IB网卡和线缆,并连入专门的IB交换机。
明确带宽需求(如100Gbps EDR、200Gbps HDR或400Gbps NDR)。它决定了部署在计算节点上IB网卡的规格和IB交换机端口规格。
选择InfiniBand版本(HDR/EDR/NDR)与交换机型号(如Mellanox Quantum系列)。
2.硬件选型
根据前期需求分析和预算选择硬件,具体选型建议参考下文。
3.拓扑设计
常用胖树(Fat-Tree)拓扑以消除阻塞。
规划交换机层级(Spine-Leaf结构)和端口分配。
二、安装部署
1.物理连接
将节点通过InfiniBand网卡连接到交换机。
确保线缆长度符合规范。如果离交换机较近的节点可以用铜缆(不超过7米),较远的节点需用光纤连接。
2.电源与散热
验证交换机电源冗余配置。
确保机柜散热满足高功率设备需求。
3.软件配置
硬件选型建议
目前,NVIDIA(Mellanox)在IB网络硬件中一家独大,约占据90%的市场份额。
一、网卡(Host Channel Adapter, HCA)
1.核心参数
带宽:支持HDR(200Gbps)、NDR(400Gbps)或XDR(800Gbps)。100Gbps甚至更低的网卡现已不再生产,仅市面上有存货。
协议兼容性:InfiniBand Verbs、RoCE、iWARP(部分型号支持多协议)。
功能扩展:是否集成DPU(如NVIDIA BlueField)、支持GPUDirect RDMA。
2.推荐型号
NVIDIA ConnectX系列:
ConnectX-7:支持NDR 400Gbps,适用于AI超算和分布式存储。
ConnectX-6 HDR:200Gbps,性价比高,适合通用HPC场景。
华为Hi1822:支持双模(InfiniBand + RoCEv2),适合国产化需求场景。
3. 选型建议
优先选择NVIDIA:生态兼容性好,驱动和工具链成熟。
验证兼容性:确保HCA与服务器主板(PCIe 4.0/5.0)、操作系统(Linux内核版本)兼容。
功能需求:若需GPU直接通信(如NCCL加速),必须支持GPUDirect RDMA。
二、交换机(InfiniBand Switch)
1. 核心参数
端口数量:36/40/64端口(如Quantum-2 NDR 400G交换机支持64端口)。端口速率高的交换机可以使用拆分线缆提供端口,如40端口200Gb/s可以拆成80端口100Gb/s。
拓扑支持:胖树(Fat-Tree)、Dragonfly+等无阻塞拓扑。
管理功能:是否支持NVIDIA UFM、OpenSM子网管理器。
2. 推荐型号
NVIDIA Quantum系列:
Quantum-2 NDR 400G:64端口,支持NDR,适用于超大规模AI集群。
Quantum HDR 200G:40端口,适合中型HPC集群。
华为CE9860系列:支持InfiniBand HDR,适合国内超算项目。
3. 选型建议
大型集群:采用胖树拓扑,使用Quantum系列构建Spine-Leaf多层架构。
中小型集群:单层Leaf交换机(如Quantum-2 36端口)简化部署。
冗余设计:部署双子网管理器(主备OpenSM)避免单点故障。
扩展性预留:选择支持NDR/XDR的交换机,为未来升级留空间。
三、线缆(Cables)
1. 核心参数
DAC(直连铜缆):短距离(≤3米),低成本,适用于机柜内连接。
AOC(有源光缆):中距离(≤30米),无需独立光模块。
光纤+光模块:长距离(数百米至数公里),支持单模/多模光纤。
速率匹配:HDR、NDR线缆需与网卡、交换机端口速率一致。
2. 推荐品牌
NVIDIA LinkX系列:认证线缆(如HDR 200G DAC/AOC),兼容性最佳。
3. 选型建议
机柜内:优先使用DAC(成本低、延迟最低)。
跨机柜/长距离:选择AOC或光纤。光纤在散热与功耗、信号衰减与性能、布线难度、维护与替换灵活性均优于AOC,但价格更贵,适用于远距离传输、散热敏感集群、高密度GPU集群、高可用性环境等场合下。
认证要求:超算中心等关键场景建议使用NVIDIA认证线缆,避免兼容性问题。
材料人建议
1:如果没有特殊要求,不建议100万元以内的超算集群部署IB网络。因为原厂新品IB交换机至少10来万一台,原厂IB网卡+线缆一套大约也要数千至一万。
2:随着目前cpu核心数越来越高,例如Intel 至强 8581C双路服务器已经120核,已可以满足大部分DFT、分子动力学计算任务。
业务咨询
材料人提供一整套计算集群解决方案,如有需要欢迎联系客服(微信号:cailiaoren010)制定方案。