单图构建三维世界清华联合腾讯实现高保真3D生成只给一张图(单目视觉),能不能还原

量子位看科技 2025-06-13 16:42:12

单图构建三维世界清华联合腾讯实现高保真3D生成

只给一张图(单目视觉),能不能还原出一个完整的三维世界?

清华、腾讯联合提出了Scene Splatter,试图打破现有方法在三维一致性和细节恢复上的瓶颈。

现状是这样的:

- 主流三维生成模型(比如Hunyuan3D、Rodin-v1.5、Tripo-v2.5)大多只擅长单个物体的构建;

- 但一旦扩展到复杂场景,就会出现结构扭曲、几何缺失等问题,尤其在输入只有一张图的情况下更是“病态问题”。

Scene Splatter的关键突破在于:

1. 引入“动量引导”思想:

- 类似优化算法中的“动量”机制,把上一次生成的细节引入当前步骤;

- 首先用潜空间动量补细节,再用像素级动量补未知区域,实现高保真多视角视频生成。

2. 基于视频而非单图重建三维场景:

- 通过视频扩散模型“合成”出多个视角,再用这些视角做三维恢复;

- 大大提升了三维一致性和细节还原度。

3. 可泛化到任意相机轨迹:

- 不管是环绕、拉远还是旋转视角,Scene Splatter都能生成连贯、稳定的三维视频。

团队还通过消融实验验证了动量机制的必要性:缺了动量,PSNR和SSIM指标都有显著下降,说明场景一致性和生成质量都会受影响。

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注