国产原生RDMA技术突破，打破高速网络垄断

高速网络是支撑大模型训练、万卡级AI集群的核心瓶颈。当算力系统从几千卡扩展到几万甚至十万卡时，微小硬件瑕疵会被无限放大——若单个点可靠性是99.99%，放大到一千倍后，系统可靠性将急剧下降。十万张卡连在一起，平均一小时就会出现一次故障，只要有一张卡出错，整个系统就得暂停。这种情况下，节点间数据传输需要极高带宽、极低延迟和稳定拥塞控制，否则算力集群效率会大打折扣。

过去国内多采用RoCE技术构建高速网络。RoCE利用现有以太网基础设施降低了成本，但存在明显短板：带宽吞吐能力与英伟达InfiniBand有一代差距，网络延迟和拥塞控制表现一般，核心芯片还依赖英伟达。这让国产算力集群在面对大模型、科学计算等复杂任务时，始终受限于传输效率。

国产原生RDMA技术的突破正在改变这一局面。作为允许服务器间直接交换内存数据、无需CPU干预的高速网络技术，原生RDMA有效解决了节点间传输瓶颈。中科曙光发布的scaleX万卡超集群，采用了国产首款400G原生RDMA网络，对标英伟达当前量产的InfiniBand网络，在规格指标和实测稳定性上已能与之看齐。这种技术应用让万卡级集群构建成为可能——scaleX万卡超集群实现了单机柜640卡的超高密度集成，总算力规模超过5EFlops，PUE值低至1.04。

分层解耦的架构设计是国产原生RDMA的另一大优势。海光信息开放了HSL高速互连总线协议，实现了海光CPU与摩尔线程、沐曦等品牌AI加速卡的异构互联。这意味着同一个机柜里可以同时运行不同品牌的CPU和GPU，打破了单一厂商垄断，让每个环节企业都能聚焦自身优势形成合力。scaleX万卡超集群还支持多品牌加速卡，兼容主流计算生态，已适配超过400个主流大模型，覆盖大模型训练、金融风控、地质能源勘探等场景。

软件生态适配同步推进。摩尔线程推出的MUSA开发者生态，通过MTT AIBOOK AI算力本和MUSACode代码生成大模型，降低了开发者从CUDA转向国产平台的成本——CUDA代码到MUSA代码的自动化迁移可编译率达到93%。云服务商如优刻得，则通过虚拟化和统一调度屏蔽底层硬件差异，让企业无需担心多品牌加速卡的兼容问题。

国产原生RDMA的崛起推动了算力产业生态闭环。从长鑫科技的DDR5内存、长存集团的NAND Flash存储，到中科曙光的原生RDMA网络、摩尔线程的GPU，再到海光的CPU，国产算力产业已形成从底层芯片到上层应用的完整链条。中国科学院高能物理研究所的国家高能物理数据中心，已采用海光CPU结合海光DCU的国产算力设施进行AI训练和科学计算，性能虽略逊于国外产品，但差距不大完全够用。

随着Agent等新兴应用爆发，对算力的需求将指数级增长。国产原生RDMA网络的普及，不仅解决了算力集群传输瓶颈，更让国产算力产业具备了直面国际竞争的能力。从实验室技术突破到实际场景应用落地，国产原生RDMA正在成为打破高速网络垄断的关键一步。