梁文锋又冲上热搜了! 这次既不是团队内讧也不是技术翻车,而是他们居然又开发了新的

绮山昭华 2026-01-24 19:00:02

梁文锋又冲上热搜了! 这次既不是团队内讧也不是技术翻车,而是他们居然又开发了新的模型!   1月21日外媒曝光,梁文锋在DeepSeek发布推理模型R1一周年之际,新模型“MODEL1”的项目名在开源社区悄然出现,这一下就让全球AI圈的目光都聚焦过来了,毕竟DeepSeek的R1模型过去一年的表现实在太亮眼,大家都好奇这个新模型会带来什么新东西。   可能还有人对梁文锋不太熟,觉得他就是突然冒出来的AI大佬,其实人家早就是圈子里的传奇人物了,1985年出生的他,本科硕士都毕业于浙大,还是从广东湛江一个普通家庭走出来的,父母都是小学语文老师,打小就是学霸的他,在浙大啃的是信息与电子工程的专业知识,上学时就对着机器学习和算法研究钻牛角尖,压根不是半路出家的门外汉,早早就为后来的AI之路铺好了路。   他可不是一毕业就扎进AI大模型领域的,早年间就带着浙大同学折腾机器学习在量化交易里的应用,2015年创立的幻方量化,靠着AI高频量化策略在金融圈站稳了脚跟,那会儿别人还在靠传统方式做量化,他已经把AI模型搬上了交易台。   后来发现算力是卡脖子的问题,又砸钱搞起了AI超算,先是2020年的萤火一号,搭了1100块GPU,又在2021年砸10亿搞了萤火二号,上万张英伟达A100显卡的配置,让幻方量化的资产管理规模直接破了千亿,跻身国内量化私募第一梯队,这十几年在算力和算法上的积累,可不是凭空来的,也为后来做DeepSeek大模型攒下了最核心的本钱。   2023年梁文锋喊出要做通用人工智能,转身就创办了DeepSeek,这一步看着突然,实则是水到渠成的事。   真正让他出圈的还是2025年1月发布的R1推理模型,这个模型最牛的地方就是不走寻常路,别人做大模型都靠大量人工标注数据,他偏偏用纯强化学习让模型自己练推理能力,练出来的效果还一点不差,美国数学竞赛AIME里正确率能到79.8%,和OpenAI的顶级模型o1打个平手,编程竞赛Codeforces能拿到2029分,快赶上人类专家水平了。   更让人咋舌的是成本,R1的训练成本才29.4万美元,就算加上基础模型的投入也就600多万美元,对比国外同类模型数千万甚至上亿美元的投入,简直是把性价比做到了极致,也难怪他被人戏称是AI界的拼多多。   R1发布后直接开源,权重和技术细节全公开,这波操作让全球开发者都沸腾了,光是在HuggingFace平台的下载量就破了1090万次,微软、亚马逊、英伟达这些海外科技巨头二话不说就接入了模型,国内的腾讯、华为、小米也都把R1融到了自家产品里,微信搜一搜灰度测试接入,小米小爱、华为小艺靠它升级深度思考能力,吉利汽车还拿来优化智能车的交互体验。   梁文锋还带着团队把R1的研究论文发上了《自然》杂志的封面,让这个模型成了全球首个经过同行评审的主流大语言模型,打破了国外在AI核心技术上的垄断,他本人也跟着接连入选《时代》杂志全球最具影响力100人、《自然》年度十大科学人物,这份成绩在国内AI圈里可是独一份。   梁文锋这人做事还特低调,不爱抛头露面搞宣传,就带着平均年龄28岁的团队闷头做研发,R1发布后不管是版本升级还是行业合作,都是用产品说话,从不提前造势。   现在全球AI圈不少大厂还在闭源大模型的赛道里烧钱内卷,他偏偏死磕开源,让全球开发者都能免费下载、二次开发,甚至商业化使用,这也让中国的开源大模型在全球站稳了脚跟,如今在HuggingFace的生态里,中国开源模型的下载量已经超过了西方阵营,DeepSeek更是牢牢占据了高性能赛道的主导权。   这次在R1发布一周年的节点,MODEL1的项目名悄然出现在开源社区,一点不意外,毕竟DeepSeek的研发节奏一直很稳,从V2到V3再到R1,每一步都有技术突破,没有一次掉链子。   外媒率先曝光这个消息,也能看出来国际上对这个新模型的期待,毕竟R1已经用实力证明了DeepSeek的技术功底,大家都想知道MODEL1会不会在推理能力、上下文处理上再上一个台阶,会不会继续延续开源和低成本的路子。   梁文锋能从量化圈走到AI圈的顶流,靠的从来不是运气,而是十几年在技术和算力上的死磕,而这次MODEL1的出现,大概率又会让中国的AI技术在全球舞台上再刷一波存在感。  

0 阅读:0
绮山昭华

绮山昭华

感谢大家的关注