经济学人文章:Anthropic指控三家中国AI公司对其“非法蒸馏”---
Anthropic与OpenAI指控中国AI公司通过“蒸馏”方式训练自家模型。所谓“蒸馏”,是指大量向美国模型提问并收集回答,然后用得到的回答训练自己的系统的做法。Anthropic称三家中国公司——DeepSeek、Moonshot、MiniMax创建了约2.4万个虚假账户,与其模型交互超过1600万次。Anthropic认为此举本质上是在“窃取模型权重”。
🔻这件事的背景是,自DeepSeek发布R1模型以来,中国模型在部分指标上迅速逼近美国水平。中国模型的发布速度比美国模型晚不了多久,但成本显著更低。以及业界当下正在等待DeepSeek新模型发布。另外据美媒报道称,特朗普政府怀疑DeepSeek“可能”在内蒙古使用英伟达Blackwell芯片训练模型,“涉嫌”违反出口管制。
🔻Anthropic与OpenAI指控的逻辑基础之一是,早期模型靠大量互联网文本训练,现在的前沿模型依赖“试错/强化学习”——这种方式计算资源消耗巨大,而中国企业受芯片限制,所以它们推断中国模型更依赖“蒸馏”来节省算力和降低成本。
🔻为什么美国对此感到不满及担忧?因为美国公司在模型训练和数据构建上投入了巨额资金,单次训练可能花费数十亿美元。据摩根大通预测,到2030年行业数据中心投资可能达到5万亿美元。在此前提下,如果竞争对手能够以更低的成本实现接近、追平(以及不敢提的反超),那么必将冲击美国企业的商业模式。另外麻省理工学院的研究显示,中国在开放模型市场份额已超过美国。
🔻文章提出几种可能的应对路径:美国政府向中国施压,要求打击蒸馏行为——但作者认为但前景不乐观。加强对中国企业的云服务限制或芯片出口管制——但作者认为特朗普政府当前似乎不愿破坏对华缓和局面。
🔻文章的结论是:“蒸馏”难以检测和阻止。中国公司在技术上日益成熟,甚至形成“产业化”蒸馏服务。美国若不应对,可能难以保持AI开源领域领导地位。现实是,美国前沿实验室可能不得不接受被“快速模仿”的局面。
🔻在机器学习领域,“知识蒸馏”是一个完全正当且被广泛使用的技术。而这个文章有一个作者可能不好意思直说的隐含前提那就是美国公司的模型训练数据来源是“正当”的,中国公司的训练方式是“不正当”的。实际情况是,全球公认美国大模型训练本身大量使用了未明确授权的互联网数据——这篇文章把一个全球AI产业普遍存在的技术现象,包装成了一个单向的国家安全问题,本质上是“我可以,你不可以”。
🔻过去美国在高科技领域的优势往往体现在研发周期领先、成本不是核心约束,大投入搞出来有更大收益,就可以利用全球第一的优势碾压对手。但在大模型时代,如果对手可以用更少算力、更低成本在更短时间内追平,那就意味着优势不再来自“资本规模”,而来自“效率”。如果效率优势不在自己一方,就会带来心理冲击。怎么办?那就如同这篇文章一样,把技术竞争道德化(“窃取”“偷权重”),把市场竞争安全化(上升到国家层面),把商业问题地缘政治化(出口管制、长臂管辖)。
烽火问鼎计划飞扬军事热点观点
一道超级难题,美国人买了一大堆电脑设备分析仪器,最后得出一个结果,到处炫耀。
中国人一看,哦,算盘一扒拉,结果比美国人的还好。
它不破防才怪。
