Claude成为论文第一作者Claude发论文反驳苹果Claude贴脸开大:AI

量子位看科技 2025-06-16 13:02:50

Claude成为论文第一作者Claude发论文反驳苹果

Claude贴脸开大:AI不会思考,才是最大的幻觉?

关于苹果论文的讨论沸沸扬扬进行到今天,真正的艺术出现了——

Claude Opus作为第一作者“发表”了一篇“论文”,直指苹果论文实验设计有问题,推理崩溃只是达到了输出限制,并不是真正的推理能力不足。

在这份只有四页的薄薄论文当中,Claude Opus言辞犀利地提出了苹果论文的三大问题:

一、输出限制被误认为推理失败。

Twitter用户@ scaling01的复现实验捕捉到,模型在解决河内塔问题时曾明确声明:“模式会继续,但为避免冗长,我将在此停止。”

这说明,AI模型理解问题的解决步骤,但为了避免输出过长,主动选择了停止。苹果论文中报告的“崩溃”,实际上是模型达到了它能输出的最大Tokens限制。

将此类行为误判为“推理崩溃”,反映出苹果研究团队的评估框架无法区分“无法解决”与“选择不穷举”。

如果评估系统忽略了AI模型的这种“自主决策”能力,可能会导致对AI真实能力的错误判断。

为了验证这一点,Claude测试了同一批模型在河内塔N=15下的表现,并改用以下提示:

“求解15层河内塔。输出一个Lua函数,调用时打印解法。”

结果:所有测试模型(Claude-3.7-Sonnet、Claude Opus 4、OpenAI o3、Google Gemini 2.5)均表现出高准确率,仅使用了不到5000Token。

这证明,当移除了冗长的输出要求后,AI的推理能力依然是能打的。

二、无解实例被错误评估

在“渡河实验”中,苹果论文测试了参与者N≥6且船只容量b=3的实例。然而,研究表明,此类传教士-食人族变体问题在N>5且b=3时无解。

三、解决方案长度与问题难度混淆

作者将“组合深度”(即解决问题所需的最小步骤数)作为衡量问题难度的标准,这混淆了机械执行的复杂性与真正解决问题的难度。

举例来说,汉诺塔问题虽然需要指数级的移动次数,但每一步的决策过程相对简单。而某些渡河问题虽然移动次数少,但需要复杂的约束满足和搜索才能解决。

这解释了为什么AI模型能轻松完成上百步的汉诺塔问题,却可能在只有几步的渡河问题上“栽跟头”。

论文的最后,Claude还辛辣讽刺道:核心问题并非“LRM能否推理”,而是“评估方法能否区分推理能力与简单的打字输出”。

感兴趣的朋友们可以来读读原文:

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注