今天,华为720亿参数大模型首次开源!而且一次就推出两个版本。一个是7B参数的盘

含依看汽车啊 2025-06-30 19:34:38

今天,华为720亿参数大模型首次开源!而且一次就推出两个版本。

一个是7B参数的盘古Embedded稠密模型,另一个是72B参数的盘古Pro MoE混合专家模型。

两个模型都针对昇腾NPU进行了深度优化,两者有什么亮点和区别呢?

盘古Embedded 7B模型亮点

1,支持任务复杂度自适应切换推理模式(快思/慢想)

2,模型具备元认知能力,能自主判断切换方式

3,虽然是小体量70亿参数,但是能在AIME、GPQA等复杂任务中击败Qwen3-8B、GLM4-9B等同行模型

4,架构统一、部署更灵活!

盘古Pro MoE 72B模型则是基于自研MoGE(分组混合专家)架构,亮点有

1,激活参数量仅160亿,但是性能优于传统稠密72B

2,通过组内均衡激活解决专家负载不均问题

3,昇腾800I A2平台上推理速度最高可达1528 tokens/s

4,支持大规模并行训练,推理性价比高

目前,盘古Pro MoE的模型权重与推理代码已在开源平台上线了。

之前不是有人说用国产芯片没法训练大模型的吗,说只能做推理。现在华为直接出来证明了,四千卡昇腾集群同样能做大模型训练!

0 阅读:1
含依看汽车啊

含依看汽车啊

感谢大家的关注