[LG]《TowardsAutonomousMathematicsRese

爱生活爱珂珂 2026-02-13 05:44:33

[LG]《Towards Autonomous Mathematics Research》T Feng, T H. Trinh, G Bingham, D Hwang... [Google DeepMind] (2026)

从奥数金牌到数学科研的无人区:本文标志着AI在科学发现领域迈出了关键一步。如果说解决奥数题是在封闭操场上的冲刺,那么数学科研就是在无边荒野中的探索。DeepMind 推出的数学科研智能体 Aletheia,正在尝试打破这两者之间的边界。

Aletheia:追寻真理的智能体Aletheia 以希腊真理女神命名,它不仅是一个单一模型,而是一个复杂的智能体系统。它由生成器、自然语言验证器和修正器组成。这种架构模拟了数学家的思考过程:大胆假设,小心求证,反复修改。它在 IMO-ProofBench 上的准确率达到了惊人的 95.1%,远超之前的系统。

推理缩放定律的跃迁研究发现,推理时间的计算量缩放不仅适用于竞赛数学,同样能迁移到博士级的数学练习中。通过增加推理时的计算投入,模型展现出了从量变到质变的逻辑深度。这意味着,AI 的上限可能并不取决于参数量的大小,而取决于我们愿意给它多少思考的时间。

零人类干预的里程碑论文展示了一个震撼的案例:一篇关于算术几何中本征权(eigenweights)计算的研究论文,完全由 Aletheia 独立生成,没有任何人类干预。AI 利用代数组合学中人类作者并不熟悉的技巧,解决了一个长期悬而未决的结构常数计算问题。这是 AI 从辅助工具向独立研究者转变的信号。

攻克埃尔多斯猜想在对 700 个公开的埃尔多斯(Erdős)问题进行的大规模评估中,Aletheia 成功解决了 4 个公开问题。虽然事后发现有些问题是因为过于冷门而非极度困难,但 AI 展现出的广度优势令人惊叹。它能从浩如烟海的文献中提取联系,这种超人般的知识检索能力补足了人类数学家的体力短板。

幻觉:真理之路上的阴影尽管 Aletheia 表现卓越,但幻觉依然是最大的敌人。它会一本正经地伪造不存在的论文引用,或错误地解读已有文献。研究指出,仅仅接入互联网是不够的,AI 需要更深层的工具使用能力。这也提醒我们:在数学这座严谨的大厦里,AI 提供的暂时只是脚手架,最后的基石仍需人类确认。

重新定义自主性:数学的 Level 0 到 Level 4为了规范 AI 在数学领域的贡献,DeepMind 提出了类似于自动驾驶的分级体系。从 Level 0(无新意)到 Level 4(里程碑式的突破)。目前,AI 已经能够稳定产出 Level 2(可发表的研究成果)。这种分级不仅是为了衡量技术,更是为了在 AI 时代重新审视人类原创性的价值。

深度思考:广度与深度的博弈AI 的优势在于超人的广度,它能同时审视数个数学分支的交叉点;而人类的优势在于真理的深度和对问题重要性的直觉。数学研究的未来不再是人机对垒,而是人机耦合。AI 负责穷举路径和验证逻辑,人类负责定义美学和指明方向。

结语:数学家的增强器AI 不会取代数学家,但使用 AI 的数学家将会取代不使用 AI 的数学家。Aletheia 的出现并非宣告人类直觉的终结,而是开启了一个新的时代:在这个时代,每一个数学家都将拥有一个永不疲倦、博闻强识的协作者。我们正在见证科学发现范式的重构。

arxiv.org/abs/2602.10177

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注