华为独辟赛道:发布AI容器技术——Flex:ai,并联合上海交通大学、西安交通大

有渔儿 2025-11-22 19:20:00

华为独辟赛道:发布AI容器技术——Flex:ai,并联合上海交通大学、西安交通大学、厦门大学共同宣布,将此项产学合作成果向外界开源 11月21日,在2025AI容器应用落地与发展论坛上,华为公司副总裁、数据存储产品线总裁周跃峰正式发布AI容器技术——Flex:ai。同时,华为联合上海交通大学、西安交通大学与厦门大学共同宣布,将此项产学合作成果向外界开源,助力破解算力资源利用难题。 Flex:ai 不是“造新卡”,而是“把旧卡用到极致”——通过 10% 级细粒度切分 + 跨节点远程聚合 + 异构统一管理,把 AI 集群利用率提升 30%,并首次以开源方式开放给业界,填补了国产在多芯混管与碎片算力调度上的空白,技术水准与 Run:ai 并跑且在混管场景领先。 1. 为何发布:全球 AI 集群平均利用率仅 30–40%,小模型独占整卡、大模型单机不足、通用服务器“空转”现象并存,算力浪费成为产业共识痛点 。 2. 技术定位:Flex:ai 是一套基于 Kubernetes 的 XPU(GPU/NPU)池化与调度软件,核心目标是用“软件精算”把闲置算力用起来,走的是“以软件补硬件”路线 。 3. 关键能力: - 算力切分——可把单卡按 10% 粒度切成多份,一卡同时跑多个任务,平均利用率提升约 30% 。 - 拉远虚拟化——把分散在集群各节点的空闲 XPU 聚合成“共享算力池”,无卡服务器也能远程调用,实现“通用服务器+远端智能算力”混合部署 。 - 异构统一——同时支持英伟达、昇腾及第三方算力卡,屏蔽硬件差异,避免被单一生态锁定 。 4. 产学模式:上海交大负责池化框架、西交大主攻智能调度算法、厦大参与拉远虚拟化,华为提供工程化与产品化,成果一次性全部开源(魔擎社区)。 5. 落地验证:已在瑞金医院多模态病理大模型等场景跑通,后续面向高校、智算中心、行业云免费开放 。 5.技术水平判 - 与业界标杆对比:功能对标 2024 年英伟达花 7 亿美元收购的 Run:ai,但 Run:ai 仅管理英伟达卡;Flex:ai 主打异构、开源、拉远聚合,在“混管多芯”和“碎片算力重组”上具备差异化优势 。 - 成熟度:完成早期商业验证(医疗、智算中心),切分精度与调度策略达到可量产级别;但大规模多集群、跨 DC 场景下的时延、容错、安全机制仍需社区与行业共同打磨。 - 战略价值:在美国高端 GPU 受限背景下,用软件手段把“能用”的昇腾、海光、寒武纪及剩余英伟达卡“拼”成资源池,对国产算力体系是及时雨,也是华为构建 AI 软件栈话语权的关键一步 。

0 阅读:4
有渔儿

有渔儿

感谢大家的关注