密室逃脱成AI新考场多模态模型能否逃出密室
多模态大模型(MLLMs)这些年发展飞快,但它们真的“看懂”了吗?
清华团队做了个3D密室评测平台EscapeCraft,看看这些模型在复杂环境中到底“想得清楚”没。
EscapeCraft是个可自动生成的3D密室逃脱环境,灵感来自真实密室游戏。模型得在里面自由探索、找道具、解谜、开门逃出去。每一步都需要视觉、空间感知、逻辑推理等多模态能力。
任务支持多种难度和道具链设置,也能扩展到问答、叙事重建等任务。
EscapeCraft的重点不只是“逃出来没有”,而是整个推理过程。比如,模型有没有重复犯错?道具拿对没?动作和意图是否一致?
项目主页:thunlp-mt.github.io/EscapeCraft