#思维链一作没回应是否被挖##思维链一作谈验证不对称性# 那边Hyung Won Chung卖关子,Jason Wei本人也没闲着。 没有回复铺天盖地被Meta挖走的传闻,反倒是罕见的连发两条X,不谈八卦,全是硬货,话题都和强化学习息息相关: - 验证不对称性与验证者定律【图1】 - 策略内学习【图2】 这两个听起来有点拗口的概念,实际还能和人生联系起来。一起来看看他都讲了啥: 一、验证不对称性与验证者定律 什么是验证不对称性?简单来说就是,有这么一类任务,判断对错比解决问题本身容易太多了。 验证不对称性很重要,也是纵观深度学习发展史后得出的结论。历史告诉我们:任何可被量化的目标,最终都能被优化。 用强化学习的术语来说,验证解决方案的能力等同于创建强化学习环境的能力。因此,可以得出一条验证者定律: 训练AI解决某项任务的难易程度,与该任务的可验证性成正比。所有可解决且易验证的任务,终将被AI攻克。 更准确地说,AI能否成功训练来解决某项任务,取决于该任务是否具备以下特质: - 客观真理性:所有人都能就优质解决方案达成共识 - 快速可验证:任何给定方案都能在数秒内完成验证 - 批量可验证:能够同时验证大量解决方案 - 低噪声性:验证结果与解决方案质量高度相关 - 连续奖励性:能轻松对同一问题的多个解决方案进行优劣排序 这条定律的正确性不言而喻:过去AI领域提出的主流基准测试几乎都易于验证,也相继被攻克。【图3】 二、策略内学习 策略内学习是强化学习的核心概念:与其模仿别人的成功路径,不如自己采取行动并从环境反馈中学习。 初期可能靠模仿走得更快,但一旦能走出合理路径后,就应该要尝试发挥出自己的优势。 Jason举了个例子:在训练语言模型解决数学应用题时,强化学习比简单模仿人类思维链的监督微调更有效。 他说:“人生也是这样。” 我们最初通过模仿学习起步,但最终会意识到:我们永远无法超越别人,因为他们在发挥我们根本不具备的优势。 策略内学习的启示在于:要超越老师,就必须走自己的路,承担环境给予的风险与奖励。 他介绍了自己特别享受的两件事:(1)海量阅读数据,(2)通过消融实验理解系统各组件的相互作用。 他表示,虽然耗时,但这些实验让他对RL的有效性获得了独到见解。 总结一句话:起步靠模仿,突破靠探索。 读完这两篇推文,虽然还是不知道他跳槽了没有,但至少知道了两件事: - 任务越容易验证,越容易被AI学会; - 走别人没走过的路,才可能走得更远。 最后再八卦一句,Jason Wei还转发了一条Hyung Won Chung刚刚发送的康奈尔演讲视频。【图4】 要知道,Jason Wei之前发X可没那么勤快,而且也没怎么转发过Hyung Won Chung的贴文…… 处于聚光灯下的两人,到底是在释放一个什么信号呢?
#思维链一作没回应是否被挖##思维链一作谈验证不对称性# 那边HyungWon
量子位
2025-07-17 14:31:13
0
阅读:0