[LG]《TowardsAutonomousMathematicsRese

[LG]《Towards Autonomous Mathematics Research》T Feng, T H. Trinh, G Bingham, D Hwang... [Google DeepMind] (2026)

从奥数金牌到数学科研的无人区：本文标志着AI在科学发现领域迈出了关键一步。如果说解决奥数题是在封闭操场上的冲刺，那么数学科研就是在无边荒野中的探索。DeepMind 推出的数学科研智能体 Aletheia，正在尝试打破这两者之间的边界。

Aletheia：追寻真理的智能体Aletheia 以希腊真理女神命名，它不仅是一个单一模型，而是一个复杂的智能体系统。它由生成器、自然语言验证器和修正器组成。这种架构模拟了数学家的思考过程：大胆假设，小心求证，反复修改。它在 IMO-ProofBench 上的准确率达到了惊人的 95.1%，远超之前的系统。

推理缩放定律的跃迁研究发现，推理时间的计算量缩放不仅适用于竞赛数学，同样能迁移到博士级的数学练习中。通过增加推理时的计算投入，模型展现出了从量变到质变的逻辑深度。这意味着，AI 的上限可能并不取决于参数量的大小，而取决于我们愿意给它多少思考的时间。

零人类干预的里程碑论文展示了一个震撼的案例：一篇关于算术几何中本征权（eigenweights）计算的研究论文，完全由 Aletheia 独立生成，没有任何人类干预。AI 利用代数组合学中人类作者并不熟悉的技巧，解决了一个长期悬而未决的结构常数计算问题。这是 AI 从辅助工具向独立研究者转变的信号。

攻克埃尔多斯猜想在对 700 个公开的埃尔多斯（Erdős）问题进行的大规模评估中，Aletheia 成功解决了 4 个公开问题。虽然事后发现有些问题是因为过于冷门而非极度困难，但 AI 展现出的广度优势令人惊叹。它能从浩如烟海的文献中提取联系，这种超人般的知识检索能力补足了人类数学家的体力短板。

幻觉：真理之路上的阴影尽管 Aletheia 表现卓越，但幻觉依然是最大的敌人。它会一本正经地伪造不存在的论文引用，或错误地解读已有文献。研究指出，仅仅接入互联网是不够的，AI 需要更深层的工具使用能力。这也提醒我们：在数学这座严谨的大厦里，AI 提供的暂时只是脚手架，最后的基石仍需人类确认。

重新定义自主性：数学的 Level 0 到 Level 4为了规范 AI 在数学领域的贡献，DeepMind 提出了类似于自动驾驶的分级体系。从 Level 0（无新意）到 Level 4（里程碑式的突破）。目前，AI 已经能够稳定产出 Level 2（可发表的研究成果）。这种分级不仅是为了衡量技术，更是为了在 AI 时代重新审视人类原创性的价值。

深度思考：广度与深度的博弈AI 的优势在于超人的广度，它能同时审视数个数学分支的交叉点；而人类的优势在于真理的深度和对问题重要性的直觉。数学研究的未来不再是人机对垒，而是人机耦合。AI 负责穷举路径和验证逻辑，人类负责定义美学和指明方向。

结语：数学家的增强器AI 不会取代数学家，但使用 AI 的数学家将会取代不使用 AI 的数学家。Aletheia 的出现并非宣告人类直觉的终结，而是开启了一个新的时代：在这个时代，每一个数学家都将拥有一个永不疲倦、博闻强识的协作者。我们正在见证科学发现范式的重构。

arxiv.org/abs/2602.10177