
一、文章主要内容
本文提出了一种名为Puffin的统一多模态模型,旨在解决相机中心的理解与生成这两个空间智能核心任务长期被孤立研究的问题。该模型将相机参数视为一种“语言”,通过“相机思维(Thinking with Camera)”机制,桥接相机几何与视觉-语言模态的鸿沟,实现了从任意视角对场景的解释与生成。
核心任务覆盖
- 相机可控生成:结合场景描述与相机参数(横滚角roll、俯仰角pitch、视场角FoV),生成符合空间几何的图像,支持像素级相机地图(Camera Map)作为细粒度控制信号。
- 相机理解:基于图像推理空间分布,精准估计相机参数,通过“思维模式”将视觉线索与摄影术语(如“荷兰角”“俯拍”)对齐,提升几何推理准确性。
- 跨视角下游应用:经指令微调后,可支持空间想象(根据初始视角与目标相机参数生成场景描述)、世界探索(跨视角图像生成与3D重建)、摄影指导(调整相机参数优化美学效果)等任务。
关键支撑数据
构建了规模达400万条的Puffin-4M数据集,包含“视觉-语言-相机”三元组,涵盖室内外多场景、单/跨视角图像、像素级相机地图及空

订阅专栏 解锁全文
645

被折叠的 条评论
为什么被折叠?



