OpenAI员工Aidan McLaughlin对DeepSeek-R1核心强化学习算法GRPO的评价。
[挖鼻]技术上不好评价,但当“前沿实验室”并不公布他们的算法时这种说法毫无意义
蚁工厂
感谢大家的关注
作者最新文章
热门分类
科技TOP
科技最新文章