梁文锋又冲上热搜了! 这次既不是团队内讧也不是技术翻车, 反倒给AI圈扔了颗惊雷。而是他们居然又 开发了新的模型!1月21日外媒曝光,梁文锋在DeepSeek发布推理模型R1一周年之际,新模型“MODEL1”的项目名在开源社区悄然出现。 说白了,MODEL1在开源社区悄然露头,恰逢R1模型周年庆,这绝非偶然为之的巧合,而是DeepSeek蓄谋已久的布局。 先说说R1模型的底子,这是DeepSeek敢趁热打铁推新模型的底气。去年发布的R1是参数达6600亿的推理模型,后续经过一次版本迭代,实力已经能对标不少商业大模型。有网友实测过,新版R1在编程任务上表现突出,不管是做光线漫反射效果、球的撞击运动模拟,还是搭建单词评分系统,都能一次生成可直接运行的代码,不用二次修改调试,这个能力甚至超过了Claude 4 Sonnet。 在专业的LiveCodeBench基准测试里,它的性能和o4-mini(Medium)水平相当,还超过了Gemini 2.5 Flash。不光是编程,复杂推理任务也能hold住,比如分析复杂族谱关系、解决“农夫带狐狸、鹅和豆子过河”的逻辑题,它能一步步梳理清楚,最长思考时间能达到30到60分钟,稳定性远超同期不少开源模型。 R1这一年的表现,已经帮DeepSeek在开源圈攒下了口碑,周年庆这个时间点本身就有话题度,MODEL1此刻露头,能最大程度借上这波热度,让行业和开发者快速注意到新模型,省了不少推广力气。 更关键的是,当前AI行业的风向变了,这时候推新模型正是踩准了节奏。360的周鸿祎之前就预测,2026年是“百亿智能体之年”,行业竞争已经从比谁的模型参数大、知识广,转向比谁能落地实用,推理能力成了核心比拼点。以前大家都拼训练算力,现在高频、长流程的推理任务需求暴涨,增速已经超过了训练算力,谁能做好推理模型,谁就能抓住更多落地场景。 而且开源已经成了AI圈的主流打法,尤其是中国开源模型正在崛起。Meta的LLaMa-1早在2023年就开启了开源大模型的浪潮,打破了巨头闭源垄断的格局,后来衍生出一大堆模型,带动了整个行业的创新。 现在国内情况也一样,1月21日当天就有数据显示,阿里千问的衍生模型数量突破了20万个,成为全球首个达到这个数的开源模型,下载量更是超过10亿次,平均每天110万次,已经超过了美国的Llama系列。 周鸿祎也提到,以DeepSeek、通义千问为代表的中国开源模型,正在成为全球AI生态的核心力量,能吸引全世界的开发者参与进来。DeepSeek一直走开源路线,R1的成功就是靠开源积累了大量用户和反馈,MODEL1继续在开源社区布局,就是要顺着这个趋势,进一步扩大自己的生态影响力,把更多开发者圈进来。 还有个现实原因,AI行业的硬件格局也在变。以前AI芯片是英伟达一家独大,主要垄断训练芯片市场。现在转向推理赛道后,专用推理芯片凭借成本优势开始崛起,形成了“英伟达主导训练,多家厂商分食推理”的格局。 DeepSeek连续布局R1和MODEL1这类推理模型,也是提前适配这种硬件变化,等到MODEL1正式发布,不管是搭配哪种推理芯片,都能更快落地到实际场景里,比如企业办公、工业设计这些需要高频推理的领域。 说到底,MODEL1的悄然露头,是DeepSeek结合自身R1的技术积累、行业趋势和开源生态做出的战略布局。既借了旧模型的热度,又踩准了新的行业风口,还能进一步巩固在开源圈的地位,为后续正式发布和落地铺路。这波操作看似突然,实则每一步都在计划之内,也让AI圈对MODEL1的正式亮相多了几分期待,毕竟R1已经有了亮眼表现,大家都想看看新模型能带来哪些突破。
