不靠Transformer也能搞大模型比Transformer更快框架来了不靠T

量子位看科技 2025-10-14 12:46:49

不靠Transformer也能搞大模型比Transformer更快框架来了

不靠Transformer,也能搞出大模型!

Mamba新作:Mamba-3,一种不用注意力机制的语言模型。

它比Transformer更快、上下文更长、可扩展性更强。

相比上一代,Mamba-3带来了三大核心升级:

- 用梯形积分替换传统的Euler方法,让模型对长序列的记忆更稳定;

- 隐状态引入复数计算,能处理像“奇偶性”这类带周期性的语言任务;

- 全新MIMO结构,可并行处理多条信息流,大大提高推理效率。

这些技术统称为SSM(State Space Model,状态空间模型)路线,是近年来被重新挖掘的旧概念。核心思想是:模型通过「记住过去」来理解语言,而不是像Transformer那样,每次都重新计算所有位置之间的关系。

Mamba-3的实际表现也确实撑得起“升级”二字:

- 在TQA等多项语言任务中,精度超过Transformer和Mamba-2;

- 在复杂数学任务中(如括号匹配、奇偶判断),Mamba-3能100%正确,而Mamba-2直接挂掉;

- 推理速度快,硬件利用率更高,更适合边缘设备部署或需要实时响应的场景。

不过它也有短板。面对“非结构化”检索任务,比如开放问答,Mamba-3还是干不过Transformer,尤其是上下文非常模糊的情况。

Mamba-3像是一种轻量化替代方案,在保持推理效率的同时,补足了上一代SSM的能力短板,也能在某些任务上直接跑赢Transformer。

未来,研究者打算把Mamba和记忆增强系统结合,用外部检索来弥补“状态大小固定”的问题。

论文原文:openreview.net/pdf?id=HwCvaJOiCj

0 阅读:2
量子位看科技

量子位看科技

感谢大家的关注