o3视觉推理开源平替字节港大开源o3视觉平替OpenAIo3的多轮视觉推理,有

量子位看科技 2025-09-11 18:16:19

o3视觉推理开源平替字节港大开源o3视觉平替

OpenAI o3的多轮视觉推理,有开源平替版了。

并且,与先前局限于1-2轮对话的视觉语言模型(VLM)不同,它在训练限制轮数只有6轮的情况下,测试阶段能将思考轮数扩展到数十轮。

这个模型叫Mini-o3,它无需消耗大量训练周期资源,通过恰当的数据、初始化方法和强化学习微调,即可实现长周期视觉搜索能力。由字节、香港大学团队联合开发。

最近的多模态大模型虽然能通过”图像工具+强化学习”处理视觉问题,但现有开源方案存在很大的短板:

比如推理方式单调、交互轮次受限、遇到需要反复试错的复杂任务就束手无策。

而Mini-o3突破了上述局限——它能够进行长达数十个步骤的深度多轮推理,在高难度视觉搜索任务中达到了当前最佳水平。

0 阅读:2
量子位看科技

量子位看科技

感谢大家的关注