AI 在 IMO 数学竞赛夺金虽炫目,却在预料之中——毕竟 AlphaGo 曾击败李世石。
• Moravec 悖论:AI 擅长复杂计算与竞赛,但多步骤项目中的“实习生”能力仍不足。
• 关键瓶颈:需要更长的上下文窗口,显著减少“幻觉”错误,避免任务被单点失误拖垮。
• 现有强化学习局限:单一 +1/-1 奖励信号难以支持复杂任务的深度学习,亟需新范式探索。
• 未来 AI 发展方向:提升多步骤推理能力与持续学习机制,才能真正胜任复杂协作与执行。
人工智能 强化学习 MoravecsParadox 多步骤推理