华为独辟赛道：发布AI容器技术——Flex:ai，并联合上海交通大学、西安交通大

有渔儿 2025-11-22 19:20:00

华为独辟赛道：发布AI容器技术——Flex:ai，并联合上海交通大学、西安交通大学、厦门大学共同宣布，将此项产学合作成果向外界开源 11月21日，在2025AI容器应用落地与发展论坛上，华为公司副总裁、数据存储产品线总裁周跃峰正式发布AI容器技术——Flex:ai。同时，华为联合上海交通大学、西安交通大学与厦门大学共同宣布，将此项产学合作成果向外界开源，助力破解算力资源利用难题。 Flex:ai 不是“造新卡”，而是“把旧卡用到极致”——通过 10% 级细粒度切分 + 跨节点远程聚合 + 异构统一管理，把 AI 集群利用率提升 30%，并首次以开源方式开放给业界，填补了国产在多芯混管与碎片算力调度上的空白，技术水准与 Run:ai 并跑且在混管场景领先。 1. 为何发布：全球 AI 集群平均利用率仅 30–40%，小模型独占整卡、大模型单机不足、通用服务器“空转”现象并存，算力浪费成为产业共识痛点。 2. 技术定位：Flex:ai 是一套基于 Kubernetes 的 XPU（GPU/NPU）池化与调度软件，核心目标是用“软件精算”把闲置算力用起来，走的是“以软件补硬件”路线。 3. 关键能力： - 算力切分——可把单卡按 10% 粒度切成多份，一卡同时跑多个任务，平均利用率提升约 30% 。 - 拉远虚拟化——把分散在集群各节点的空闲 XPU 聚合成“共享算力池”，无卡服务器也能远程调用，实现“通用服务器+远端智能算力”混合部署。 - 异构统一——同时支持英伟达、昇腾及第三方算力卡，屏蔽硬件差异，避免被单一生态锁定。 4. 产学模式：上海交大负责池化框架、西交大主攻智能调度算法、厦大参与拉远虚拟化，华为提供工程化与产品化，成果一次性全部开源（魔擎社区）。 5. 落地验证：已在瑞金医院多模态病理大模型等场景跑通，后续面向高校、智算中心、行业云免费开放。 5.技术水平判 - 与业界标杆对比：功能对标 2024 年英伟达花 7 亿美元收购的 Run:ai，但 Run:ai 仅管理英伟达卡；Flex:ai 主打异构、开源、拉远聚合，在“混管多芯”和“碎片算力重组”上具备差异化优势。 - 成熟度：完成早期商业验证（医疗、智算中心），切分精度与调度策略达到可量产级别；但大规模多集群、跨 DC 场景下的时延、容错、安全机制仍需社区与行业共同打磨。 - 战略价值：在美国高端 GPU 受限背景下，用软件手段把“能用”的昇腾、海光、寒武纪及剩余英伟达卡“拼”成资源池，对国产算力体系是及时雨，也是华为构建 AI 软件栈话语权的关键一步。

0 阅读：4