o3视觉推理开源平替字节港大开源o3视觉平替
OpenAI o3的多轮视觉推理,有开源平替版了。
并且,与先前局限于1-2轮对话的视觉语言模型(VLM)不同,它在训练限制轮数只有6轮的情况下,测试阶段能将思考轮数扩展到数十轮。
这个模型叫Mini-o3,它无需消耗大量训练周期资源,通过恰当的数据、初始化方法和强化学习微调,即可实现长周期视觉搜索能力。由字节、香港大学团队联合开发。
最近的多模态大模型虽然能通过”图像工具+强化学习”处理视觉问题,但现有开源方案存在很大的短板:
比如推理方式单调、交互轮次受限、遇到需要反复试错的复杂任务就束手无策。
而Mini-o3突破了上述局限——它能够进行长达数十个步骤的深度多轮推理,在高难度视觉搜索任务中达到了当前最佳水平。