【月之暗面：一年前就验证过长思维链，因成本高先搞了长文本】2月17日上午消息，月

哀上李金锐 2025-02-25 21:20:04

【月之暗面：一年前就验证过长思维链，因成本高先搞了长文本】2月17日上午消息，月之暗面研究员Flood Sung近日分享了k1.5 模型背后的完整思考过程，并透露称，2024年9月 12 号OpenAI o1 发布带来的震撼效果，令自己陷入了Long-CoT的有效性反思中。因为 Long-CoT 的有效性，其实在一年多前月之暗面Kimi联合创始人Tim周昕宇就验证过，使用很小的模型，训练模型做几十位的加减乘除运算，将细粒度的运算过程合成出来变成很长的 CoT 数据做 SFT，就可以获得非常好的效果。“我依然记得当时看到那个效果的震撼。”Flood Sung表示，公司意识到 Long Context的重要性，所以率先考虑把 Context 搞长，但却对 Long-CoT 这件事情不够重视，其实主要还是考虑了成本问题。“Long Context 主要做的是长文本输入，有 Prefill 预填充，有 Mooncake 加持，成本速度可控，而 Long-CoT 是长文本输出，成本高很多，速度也要慢很多，在这种情况下，把输出搞长就没有成为一个高优选项。”

0 阅读：0

哀上李金锐

感谢大家的关注

作者最新文章

1

今天才发现 JK就是把床单穿在下面而程序员就是把床单穿在上面

2

Agentic AI（代理式人工智能）：AI技术发展的中间态老黄这次没急着

3

根据5000亿的资本开支计算，国内今年总需求大概300w+张卡，其中200w张

4

英国前首相丘吉尔说过一句很有意义的话： “成功根本没有什么秘诀可言，如果有的话，

5

Manus营销过头了，不及 DeepSeek 万分之一！昨天看到有博主说，M

6

三大运营商“牵手”DeepSeek，自家大模型或成“弃子”！三大运营商相继宣布

7

近日，字节跳动发布AI编程工具Trae国内版，模型搭载doubao-1.5-pr

8

【小心了！仿冒DeepSeek的手机木马病毒被捕获】近日，国家计算机病毒应急处理

9

马斯克：我有一个停止内耗屡试不爽的办法，那就是不去分析对方的动机我有个停止内

10

【月之暗面：一年前就验证过长思维链，因成本高先搞了长文本】2月17日上午消息，月

热门分类

社会TOP

1

【#男子陪女友逛街刮中80万#】陪女朋友逛街时，随手刮出80万大奖是种怎样的体验

2

【#最丑大厦两度流拍后降价2.8亿#：广州“铜钱大厦”从13.6亿降到10.8亿

3

民办幼儿园举办者自己开车接送孩子，这在一些农村地区颇为普遍，因为要买符合标准的校

4

#湾区之眼争议招牌已拆除#【“湾区之眼”争议招牌已下架，市民：高大上的地标又回来

5

#广东本月将迎5次冷空气#【中等偏弱冷空气再袭粤，气温约降4℃！本月将迎5次冷空

6

12306回应取消靠窗选座

7

这么粗陋的“假名单”能通过公示，说明什么？值得注意的是，相关受助对象名单已经

8

#官方通报许昌东站卫生间配4名所长#【铁路郑州站通报“许昌东站卫生间配置有4名所

9

【MH370部分失联乘客家属索赔案一审宣判】2025年12月5日，北京市朝阳区人

10

【#警方通报男子卖冰糖葫芦被掀摊##流动摊贩掀翻职校学生糖葫芦摊位#】12月13

社会最新文章

1

#张文父母下跪连说4次对不起#【#台北随机攻击案凶手生前几乎用尽存款#！其父母下

2

#关中平原北上最快通道已解锁#【#西延高铁重塑陕西南北时空#】曾经，一辆蒸汽机车

3

#南博回应金兽脱皮称系正常现象#【#南京博物院西汉金兽被指脱皮掉色#！称现未展出

4

【#公安部打掉黑灰产犯罪团伙200余个#】#公安部查处涉案近300亿元黑灰产#

5

【#三亚免税店封关后销售额暴增#】#三亚免税店连续5天销售额破亿#记者从三亚市商

6

【#公安部打掉黑灰产犯罪团伙200余个#】#公安部查处涉案近300亿元黑灰产#

7

【都有数｜#北京发放L3级自动驾驶专用号牌#，#自动驾驶一图科普#】北京首批L3

8

【辽宁盘锦“幼儿园虐童案”一审宣判】辽宁省盘锦市大洼区人民法院25日一审公开宣判

9

#广东人终于等来了冷空气#【中等强度冷空气席卷广东，日均降温近5℃！金子山出现冰

10

【#今天可预约天安门广场元旦升旗#】#下周四就是2026了#预约2026年1月