图像编辑模型推理能力如何图像编辑模型推理成短板
图像编辑模型能不能“像人一样思考”?一个新基准测试给出了答案。
东南大学联合多家机构发布KRIS-Bench,它是首个从知识类型角度出发的图像编辑模型推理评估系统,专门测AI在知识类任务上的“理解力”。
这个评估体系基于认知心理学,按照三类知识层级出题:
- 事实性知识:颜色、数量、空间等直观信息;
- 概念性知识:涉及自然学科常识,要求一定理解;
- 程序性知识:多步推理和复杂规则执行,是最接近“思维”的部分。
10款模型实测后发现:GPT-Image-1表现最稳,但整体来看,即便是顶级模型,在“程序性推理”和自然科学任务上仍集体翻车,尤其在多步骤合成和因果理解方面,明显还做不到“懂”。
开源模型中,BAGEL-Think通过增加推理过程小有进步,但和闭源模型仍存在明显代差。
团队希望未来图像编辑模型不只是“听话”,还能真正“理解”:不仅知道怎么改图,还知道为什么这样改,改完之后会发生什么。