国产原生RDMA技术突破,打破高速网络垄断

前沿科技洞察 2026-03-10 17:52:31

高速网络是支撑大模型训练、万卡级AI集群的核心瓶颈。当算力系统从几千卡扩展到几万甚至十万卡时,微小硬件瑕疵会被无限放大——若单个点可靠性是99.99%,放大到一千倍后,系统可靠性将急剧下降。十万张卡连在一起,平均一小时就会出现一次故障,只要有一张卡出错,整个系统就得暂停。这种情况下,节点间数据传输需要极高带宽、极低延迟和稳定拥塞控制,否则算力集群效率会大打折扣。

过去国内多采用RoCE技术构建高速网络。RoCE利用现有以太网基础设施降低了成本,但存在明显短板:带宽吞吐能力与英伟达InfiniBand有一代差距,网络延迟和拥塞控制表现一般,核心芯片还依赖英伟达。这让国产算力集群在面对大模型、科学计算等复杂任务时,始终受限于传输效率。

国产原生RDMA技术的突破正在改变这一局面。作为允许服务器间直接交换内存数据、无需CPU干预的高速网络技术,原生RDMA有效解决了节点间传输瓶颈。中科曙光发布的scaleX万卡超集群,采用了国产首款400G原生RDMA网络,对标英伟达当前量产的InfiniBand网络,在规格指标和实测稳定性上已能与之看齐。这种技术应用让万卡级集群构建成为可能——scaleX万卡超集群实现了单机柜640卡的超高密度集成,总算力规模超过5EFlops,PUE值低至1.04。

分层解耦的架构设计是国产原生RDMA的另一大优势。海光信息开放了HSL高速互连总线协议,实现了海光CPU与摩尔线程、沐曦等品牌AI加速卡的异构互联。这意味着同一个机柜里可以同时运行不同品牌的CPU和GPU,打破了单一厂商垄断,让每个环节企业都能聚焦自身优势形成合力。scaleX万卡超集群还支持多品牌加速卡,兼容主流计算生态,已适配超过400个主流大模型,覆盖大模型训练、金融风控、地质能源勘探等场景。

软件生态适配同步推进。摩尔线程推出的MUSA开发者生态,通过MTT AIBOOK AI算力本和MUSACode代码生成大模型,降低了开发者从CUDA转向国产平台的成本——CUDA代码到MUSA代码的自动化迁移可编译率达到93%。云服务商如优刻得,则通过虚拟化和统一调度屏蔽底层硬件差异,让企业无需担心多品牌加速卡的兼容问题。

国产原生RDMA的崛起推动了算力产业生态闭环。从长鑫科技的DDR5内存、长存集团的NAND Flash存储,到中科曙光的原生RDMA网络、摩尔线程的GPU,再到海光的CPU,国产算力产业已形成从底层芯片到上层应用的完整链条。中国科学院高能物理研究所的国家高能物理数据中心,已采用海光CPU结合海光DCU的国产算力设施进行AI训练和科学计算,性能虽略逊于国外产品,但差距不大完全够用。

随着Agent等新兴应用爆发,对算力的需求将指数级增长。国产原生RDMA网络的普及,不仅解决了算力集群传输瓶颈,更让国产算力产业具备了直面国际竞争的能力。从实验室技术突破到实际场景应用落地,国产原生RDMA正在成为打破高速网络垄断的关键一步。

0 阅读:2
前沿科技洞察

前沿科技洞察

每天更新精彩片段,承蒙您的厚爱