THINKING WITH CAMERA: A UNIFIED MULTIMODAL MODEL FOR CAMERA-CENTRIC UNDERSTANDING AND GENERATION

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量172

点赞数 4

CC 4.0 BY-SA版权

分类专栏： LLM Daily Multimodal 文章标签：数码相机语言模型人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/153330421

LLM Daily 同时被 2 个专栏收录

1687 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

164 篇文章

订阅专栏

在这里插入图片描述

一、文章主要内容

本文提出了一种名为Puffin的统一多模态模型，旨在解决相机中心的理解与生成这两个空间智能核心任务长期被孤立研究的问题。该模型将相机参数视为一种“语言”，通过“相机思维（Thinking with Camera）”机制，桥接相机几何与视觉-语言模态的鸿沟，实现了从任意视角对场景的解释与生成。

核心任务覆盖

相机可控生成：结合场景描述与相机参数（横滚角roll、俯仰角pitch、视场角FoV），生成符合空间几何的图像，支持像素级相机地图（Camera Map）作为细粒度控制信号。
相机理解：基于图像推理空间分布，精准估计相机参数，通过“思维模式”将视觉线索与摄影术语（如“荷兰角”“俯拍”）对齐，提升几何推理准确性。
跨视角下游应用：经指令微调后，可支持空间想象（根据初始视角与目标相机参数生成场景描述）、世界探索（跨视角图像生成与3D重建）、摄影指导（调整相机参数优化美学效果）等任务。

关键支撑数据

构建了规模达400万条的Puffin-4M数据集，包含“视觉-语言-相机”三元组，涵盖室内外多场景、单/跨视角图像、像素级相机地图及空

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。