Hugging Face创始人Thomas Wolf ,对工作和AI关系的思考-------------------------工作的本质 ---- 判断力、主体性,以及 AI 评测指标的局限性Thomas Wolf 2025年12月22日十五年前,也就是 2010 年的冬天,我正处于博士阶段的最后冲刺期,开始探索学术界以外的世界。我记得在一个创纪录严寒的巴黎冬日,参加完一场研发岗位的面试后乘车返回。到处都是积雪,我坐在寒冷的区域通勤火车上,感到既失望又有些困惑。我熟悉该行业研发团队使用的大部分工具,并有信心能轻松学会剩下的部分。然而,这似乎并不够,面试官一直告诉我,他们正在寻找“更有经验”的人。当时,我并不真正理解这句话的含义。相比我能展示的具体知识,他们更看重工作年限,这让我感到极度不公。在我二十出头的时候,“经验”听起来更像是一个模糊的借口,用来拒绝像我这样既有明确能力又渴望学习的申请者。这种久违的感觉最近又回来困扰我了。看到近期关于初级岗位招聘萎缩的数据(尤其是软件开发领域),我不禁想起了当年的自己。斯坦福大学在 2025 年夏季进行的一项分析显示,在 AI 暴露程度最高的职业中,22-25 岁的员工就业人数在 2022 年底至 2025 年中期下降了约 6%。而在同一时期,这些职业中资深员工的就业人数却增加了约 6-9%。在这个图表上,转折点清晰可见。(图2)无论是因为相关性还是因果关系,2022 年秋季标志着 ChatGPT 的发布——那是公众发现 AI 模型真实能力的时刻,也是 AI 性能竞赛真正点燃的时刻。这场竞赛最初由 OpenAI 和 Anthropic 驱动,随后 Google 以及 xAI、阿里巴巴 (Qwen)、DeepSeek、Mistral 等越来越多的公司也加入了第一梯队。在过去的三年里,AI 评测指标(Benchmarks)的进步令人惊叹。像 Claude Opus 4.5 这样的模型现在能在 SWE-bench上解决约 75% 的真实世界编程任务;Gemini 3 和 GPT 5 在科学奥林匹克竞赛中达到了金牌水平⁴。与此同时,ChatGPT 的周活跃用户已接近 10 亿⁵。从许多技术指标来看,AI 的能力和普及率都以惊人的速度增长,往往预示着它已达到行业专家或人类专家的水平。 (图3)然而,尽管拿了奖牌、尽管初级招聘在下降,宏观经济的表现却显得平淡得多。在全球和行业层面,AI 的影响依然有限,对 GDP 的拉动作用微乎其微。近期有说法称,在那些光鲜的公告背后,许多(如果不是大多数)生成式 AI 的试点项目都未能为公司产生持续的价值⁷。此外,在一些模拟真实环境的测试中——例如评估 AI Agent 在真实兼职项目上表现的“远程劳动指数”(Remote Labor Index),即使是目前最强大的系统(如 ManusAI),成功率也仅为 2.5% 左右。模型在评测指标上展示的能力,似乎很难与组织内部正在发生的情况相调和。对于这种“理论与实践”之间的差距,通常有几种解释:一种是组织惯性,大公司反应慢,遗留系统混乱,部署困难;另一种可能性是,我们还没跨过正确的能力阈值。也许在与人类智能相比的 AGI 定义和量化尝试中,拿到接近 60% 的分数还是不够的。这些因素可能都发挥了作用。但它们往往倾向于将“工作”仅仅视为一种“任务执行”。这种定义在我看来是不完整的。在实践中,一份工作很少只是待执行任务的列表,一个同事也极少能被简化为一捆技术技能的集合。作为一名初创公司创始人,我有近 50% 的时间花在公司不同阶段的招聘上,这可能是我人生中教训最深的部分。其中一个教训是:在面对大多数申请者和岗位时,我倾向于寻找三种品质的结合:🌟执行力或技术技能:正确完成任务、掌握相关工具和方法的能力。🌟常识或判断力:理解任务为什么重要,以及任务如何适应更广泛的目标、公司价值观、文化和方向。🌟主体性(Agency)或品味:预判下一步该做什么,该提议什么,不该做什么,什么时候改变方向;有时,理解为什么彻底停止任务才是最佳决策。执行力和技术知识在评测指标中相对容易观察、测试和衡量。一旦给定任务,核心就是解决它。判断力和主体性则极难评估。它们往往在非稳态或非衡平的情况下才显现价值——当问题定义不明确、优先级发生转移,或者正确的做法是质疑任务本身时。这通常是优秀的团队成员开始脱颖而出的地方,也日益成为当今企业所处的常态。通过这个视角,我终于理解了我 2010 年的那场面试。我的面试官不仅在评估我是否会使用他们的工具和方法,他们还在隐性地评估:一旦问题不再被清晰定义时,我会如何表现。这种对“劳动者”的定义,解释了为什么初级职位首先受到冲击。职业生涯早期的角色传统上更侧重于执行。随着时间的推移,随着人们经验的增长,他们的贡献往往会转向判断力和主体性:定义问题、选择工作内容以及应对模糊性。AI 系统在“执行”方面的进步远快于其他维度。结果是,执行层的成本变得更低、更薄,从而不成比例地影响了初级岗位的招聘。从长期来看,这是令人担忧的。判断力和主体性部分源于天赋,但更多时候是在执行密集型的工作经验中习得的。如果入门层流失太快,将会削弱产生未来资深人才的培养管道。同样的框架也有助于理解为什么 AI 的经济影响依然有限,以及自动化更长周期、更广泛任务所面临的挑战。AI 能力的限制因素通常不是孤立生成文本或代码的能力,而是难以兼顾大局:将指令适应公司/团队范围的语境、解读模糊的需求、排列优先级、进行基于常识的权衡,以及决定什么才是重要的,甚至决定何时停止任务。执行力显然很重要。但它几乎从来不是工作的全部。或者,正如 Cursor 的 Ryo Lu 最近写的,执行并不是我们曾经认为的工作中最重要的部分:----Ryo Lu (@ ryolu_ ) 传统的团队扩张方式已经过时了:----我们过去习惯于聘请专家——设计师、工程师、产品经理——各司其职,通过增加人手来扩大规模。但当 Cursor 能让你在几分钟内将想法变成代码时,执行力就不再是瓶颈了。品味和判断力才是。挑战在于,判断力和主体性要难衡量得多。通常,它们只有在更广泛的、非静态的背景下才有意义,这解释了为什么它们在评测指标中受到的关注较少。然而,它们通常是一个员工在组织中创造价值的核心。如果我们想真正理解 AI 的经济潜力,我们最终需要超越技术执行的评估方式,去反映真实工作中跨团队和纵向协作的本质,并承认:极少有工作是仅仅在一个完全静态的环境中遵循一套预设的固定规则。AI 时代最终可能会让判断力、品味和主体性占据更高的权重——而这些恰恰是工作中最难量化、最难评测、也最难被取代的部分。回过头看,AI 评测性能与经济影响之间的这种差距,对于 20 岁时的我来说,其实是有一种似曾相识的熟悉感的。科技先锋官AI创造营



