世界生成模型又火啦!李飞飞吴佳俊团队提出的 WorldScore 全面评测基准超厉害,涵盖三大类评估指标,数据集有3000个测试样例,动静场景都能测,还把3D、4D场景生成和视频生成模型评估统一起来。
如今,人工智能与计算机图形学深度融合,让我们创造、模拟世界的精度和效率大幅提升。这不仅能打造超逼真的虚拟游戏、沉浸式影视场景,在建筑设计、城市规划、工业模拟等领域也作用巨大,能提前预见方案效果,节省成本和时间。
但传统评估基准像VBench有局限,主要聚焦文本到视频任务,难以评估先进的3D、4D场景生成方法。
我精心挑选了【12篇】世界生成领域相关论文,都带源码,感兴趣的可以 d d 我 !也欢迎分享给身边的朋友~
对资料感兴趣的可以 [丝 xin] 我~~
【论文1】WorldScore: A Unified Evaluation Benchmark for World Generation
WorldScore metrics
1.研究方法
Overview of the WorldScore benchmark design
该论文提出 WorldScore 这一世界生成的统一评估基准,旨在解决现有基准无法统一评估多种世界生成模型的问题,通过构建多样化数据集和多维度评估指标,对不同类型模型进行全面评估。并将世界生成任务分解为一系列基于明确相机轨迹布局规范的下一场景生成任务;构建包含 3000 个高质量测试示例的多样化数据集,涵盖静态和动态世界生成场景;设计 WorldScore 评估指标,从可控性、质量和动态性三个关键方面的 10 个指标对生成的世界进行评估。
2.论文创新点
Showcasing of the current scene images
-
统一评估基准:首次提出WorldScore基准,可对3D、4D、图像到视频(I2V)和文本到视频(T2V)等多种模型进行统一评估,解决了现有基准评估局限性的问题。
-
多样化数据集:精心策划了涵盖不同视觉领域的高质量、多样化数据集,包括多种场景类型、视觉风格以及静态和动态场景,为全面评估模型提供数据支持。
-
综合评估指标:引入WorldScore指标,综合考量世界生成模型性能的多个关键方面,通过多维度评估指标更全面准确地衡量模型表现。
-
揭示研究方向:通过对19种模型的全面评估,揭示了当前世界生成方法的关键见解和挑战,为未来研究在弥合3D和4D表示差距、增强可控性机制等方面提供指导。
【论文2】4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models
4Real is a 4D generation framework that can generate near-photorealistic dynamic scenes from text prompts
1.研究方法
Reconstructing Deformable 3DGS
论文提出了一种基于视频扩散模型的逼真 4D 场景生成方法,核心是利用视频生成模型和 3D 高斯溅射技术,实现从文本到 4D 场景的转换,为该领域研究开辟了新方向。采用可变形 3D 高斯溅射(D-3DGS)表示动态场景,通过文本到视频扩散模型生成参考视频,再利用参考视频生成冻结时间视频,以构建规范 3D 表示并学习每帧变形;最后,基于规范表示重建时间变形,从而生成逼真的 4D 场景。
2.论文创新点
Generate reference and freeze-time videos
-
全新生成框架:提出首个逼真的文本到4D场景生成管道4Real,摒弃对多视图生成模型的依赖,利用在大规模真实世界视频上训练的视频生成模型,生成更逼真、多样化的4D场景。
-
转换生成问题:将生成问题转化为重建问题,通过生成参考视频和冻结时间视频,减少对耗时的分数蒸馏采样步骤的依赖,提高生成效率。
-
灵活高效生成:为用户提供选择和编辑视频的灵活性,能在更合理的计算预算内生成高质量样本,相比竞争方法显著缩短生成时间。