生成模型双突破｜高德技术如何让AI视频「更懂人」、图像「自愈」？

原创于 2025-07-09 18:03:05 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

ICCV(International Conference on Computer Vision)是计算机视觉领域的国际顶级学术会议，也是中国计算机学会(CCF)推荐的A类国际学术会议，今年计划于10月19日至10月25日在美国夏威夷召开。本届ICCV会议共有11,239篇有效投稿，录用2698篇，录取率为 24%。高德技术团队共5篇论文被收录。

导读

VMBench首创视频运动生成评估基准，破解人类感知与指标脱节困局，为动态场景生成提供可解释评估体系；LD-RPS创新隐式扩散循环采样，攻克复杂退化图像复原难题，实现噪声分布自适应的统一修复框架。高德机器学习团队两篇论文分别从评估与方法维度推动生成模型实际落地，共筑「感知-生成」闭环。

本文提出了首个人类感知对齐的视频运动质量评估基准 VMBench，受人类运动感知机制的启发，分层构建了五维度的运动感知评估指标 (PMM)体系和大规模的元信息引导提示生成 (MMPG)框架，覆盖了自然界中六大运动模式，为视频生成模型的运动质量评估树立了新的行业标准。

论文标题｜VMBench: A Benchmark for Perception-Aligned Video Motion Generation

论文链接｜https://arxiv.org/abs/2503.10076
开源地址｜https://github.com/GD-AIGC/VMBench

图1为VMBench的整体工作流程，包含元信息引导提示词构建、主流开源模型视频生成、运动感知评估指标体系、人类感知对齐验证。

｜研究背景

随着视频生成技术的飞速发展，如何科学、准确地评估生成视频的质量，尤其是运动质量，成为了一个关键挑战。现有的评估方法主要存在两大瓶颈：

评估指标与人类感知脱节：许多基于光流或特征相似度的传统指标无法有效捕捉人类在观看视频时对运动平滑度、物理常识和对象完整性的直观感受，常常得出与人类判断相悖的结论。
评测提示库有限：现有的基准测试大多使用有限且类型单一的运动提示，无法充分激发和评估模型在生成多样化、复杂动态场景时的潜力。

为了解决这些问题，本研究提出了VMBench，一个旨在将评估标准与人类真实感知对齐的综合性视频运动生成基准。

｜论文亮点

1. 感知对齐的评估体系 (Perception-Aligned Motion Metrics, PMM)

图2我们用于评估视频运动的指标框架，其灵感源自人类对视频中运动感知的机制。（a）人类对视频中运动的感知主要涵盖两个维度：运动的综合分析和运动细节的捕捉。（b）我们提出的用于评估视频运动的指标框架。具体而言，MSS 和CAS 对应于人类对运动的综合分析过程，而OIS、PAS和TCS则对应于运动细节的捕捉。

受人类分层感知机制（先整体理解，后关注细节）的启发，我们设计了从全局到局部的五维评估体系，以全面诊断视频运动质量，如图2所示。

常识遵守性评分 (CAS): 通过时空建模网络，量化视频内容是否符合物理规律和生活常识，解决了传统方法难以检测反重力、逻辑错误等问题。

运动平滑度评分 (MSS): 基于场景自适应的质量骤降检测机制，精准捕捉人类敏感的卡顿、掉帧和高动态模糊。

对象完整性评分 (OIS): 结合MMPose关键点追踪与解剖学约束，检测运动过程中物体（尤其是人体）是否发生不自然的扭曲或形变。

可感知幅度评分 (PAS): 利用多模态定位技术分离主体运动与相机运动，克服了传统光流法因相机移动导致运动幅度被高估的问题。

时间一致性评分 (TCS): 通过轨迹验证的双阶段检测，准确识别物体在运动中不合理的消失或出现，过滤掉合法的出入画和遮挡情况。

图3展示了我们感知驱动的运动指标（PMM）计算框架与流程。

图3感知驱动的运动指标（PMM）框架。PMM包含多个评估指标：常识一致性得分（CAS）、运动平滑度得分（MSS）、物体完整性得分（OIS）、可感知幅度得分（PAS）以及时间连贯性得分（TCS）。（a-e）：每个指标的计算流程图。PMM 生成的得分呈现出与人类评估一致的变化趋势，表明与人类感知高度契合。

2. 元信息引导的Prompt自动生成 (Meta-guided Motion Prompt Generation, MMPG)

图4我们的元指导运动提示生成（MMPG）框架。MMPG包含三个阶段：(a) 元信息提取：从VidProM、Didemo、MSRVTT、WebVid、Place365 和 Kinect-700 等数据集中提取主体、场所和动作信息。(b) 自优化提示生成：基于提取的信息生成提示，并通过迭代优化提示内容。(c) 人类-LLM联合验证：通过人类与 DeepSeek-R1 的协作过程验证提示的合理性。为构建覆盖面广、描述精细的运动提示库，我们提出了MMPG框架，如图4所示。

元信息提取与结构化：将运动描述拆解为主体 (Subject)、场景 (Place)、动作 (Action) 三个核心要素，并从多个数据集中构建了一个包含数万条元信息的数据库。

自优化提示生成：利用大语言模型（如GPT-4o）将随机组合的元信息三元组（S, P, A）优化成自然流畅且逻辑一致的运动描述。

人机协同验证：通过大模型（如Deepseek R1）进行物理规律的初步筛选，再结合领域专家的人工校验，最终从5万候选提示中精选出1,050条高质量、多样化的运动提示。

｜实验结果

1. 人类感知对齐验证

表1基于斯皮尔曼相关系数（ρ × 100）的人类评分与评估指标之间的相关性分析。上标 * 和 † 分别表示遵循 VBench 和 EvalCrafter 的实现。在规则基（Rule-based）方法中，黄色背景表示特定维度的基线。

我们邀请三位领域专家对随机选取的1,200个视频进行打分，并计算PMM指标得分与专家评分的斯皮尔曼相关系数。

如表1所示，PMM在所有五个维度上均显著优于现有的基于规则的方法和多模态大模型（MLLM）。例如，在运动平滑度（MSS）上，PMM的相关性达到49.8%，远超AMT的18.1%；在时间一致性（TCS）上，PMM达到54.5%，远超CLIP的28.0%。这证明了我们的指标与人类感知高度契合。

2. 消融实验

表2我们的评价指标消融实验计算了不同度量组合相对于人类偏好的预测准确率（%）。基于移除的消融实验展示了单独去除每个度量的影响，而基于添加的消融实验则逐步加入各个度量，以观察其影响。

实验表明，PMM中的每一个维度都不可或缺。如表2所示，移除任意单一指标都会导致整体评估准确率下降，其中移除常识一致性（CAS）后准确率下降最严重，证明其在评估框架中的核心地位。

3. 定性分析与模型评测

图5不同评估机制下指标的相关性矩阵分析。(a) 人类标注的斯皮尔曼相关性矩阵；(b) 我们 PMM 指标的斯皮尔曼相关性矩阵。

如图5所示，PMM各维度间的相关性模式与人类专家的评分模式高度一致，进一步验证了其设计的合理性。例如，物体完整性（OIS）与常识性（CAS）、平滑度（MSS）有强正相关，而运动幅度（PAS）与其他指标相关性较弱，这符合人类感知。

我们使用VMBench对六个主流模型进行了评测。如图5所示，Wan2.1在综合运动表现上最佳，而在不同维度上，各模型表现出不同的优劣势，为模型开发者提供了清晰的优化方向。更多的可视化样例请在项目主页中查看。

*一些主流模型的生成视频例子

｜总结与展望

本研究提出了首个开源的、与人类感知对齐的视频运动质量评测基准VMBench，为社区提供了标准化的评测框架、可操作的诊断工具和量化的评估标准。它有力地推动了视频生成技术朝着动态真实性与视觉保真度平衡的方向发展。

然而，我们也认识到，尽管VMBench的指标与人类平均感知高度对齐，但仍可能无法完全捕捉到由个体观看体验和主观偏好带来的细微感知差异。未来的研究可以在此基础上继续探索，以实现更加全面、灵活且能适应个体差异的视频质量评估方法。

本文提出了一种基于隐空间扩散与循环后验采样的统一图像修复方法——LD-RPS。该方法无需依赖数据集，以无监督、零样本的方式运行，测试阶段仅需单张低质量图像作为输入。LD-RPS将该图像作为条件输入，引导扩散模型生成对应的修复结果。通过多模态大语言模型（MLLM）的语义理解能力，系统能根据低质量图像自动生成文本提示，为图像生成提供先验语义信息。同时，借助特征-像素对齐模块（F-PAM），LD-RPS将逆向扩散过程中的中间结果与退化图像进行对齐，通过损失函数校正后验采样方向以保持语义一致性，并进一步采用循环策略，基于初步修复结果初始化后验采样过程，从而增强生成模型的稳定性并优化最终输出。核心贡献如下：

提出了一种多模态零样本统一图像修复框架，该框架利用退化图像本身的语义信息实现生成式修复；
为优化后验采样方向，设计了一种无监督特征-像素对齐模块（F-PAM），用于弥合退化图像与隐特征生成之间的差距；
提出了一种循环后验采样策略，通过优化扩散初始化点实现图像质量的渐进式提升。

论文标题｜LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling
论文链接｜hhttps://arxiv.org/abs/2507.00790
开源地址｜https://github.com/AMAP-ML/LD-RPS

｜研究背景

在图像的采集、存储和转换过程中，图像容易受到各种退化的影响，如噪声、弱光和运动模糊。传统研究侧重于特定任务的解决方案，采用设计的网络架构，使用相应的数据集对特定类型的退化进行优化。这些方法在各自的任务上表现出强大的性能，但在其他退化场景中表现出有限的通用性。

近年来，统一图像恢复在研究界受到了极大的关注。该方法旨在开发一个能够熟练处理多个恢复任务的单一模型，从而提高泛化性能。传统方法通常使用具有各种退化的数据集进行训练，但缺乏明确设计的模块来识别退化模式。随后的研究将退化学习模块纳入网络架构，并将这一概念进一步扩展到基于扩散的方法。然而，这些数据驱动的方法通常对训练数据集中不存在的退化类型表现出有限的泛化。此外，创建包含各种退化类型的综合数据集既费时又费力。

因此，一个有效的统一图像恢复方案必须最优地满足三个基本条件：

1)采用无监督训练来减少对标记数据的依赖；

2)无数据集，降低培训成本；

3)有效地推广到看不见的退化类型。

｜论文亮点

隐式扩散模型的使用。已有表征学习方法表明，像素级图像信息通常存在冗余性，而退化图像还包含额外的无意义噪声。将图像压缩至隐空间可使模型在滤除噪声、模糊等退化细节的同时，捕捉到图像的本质结构与语义信息。

多模态大模型先验与扩散模型先验的结合。基于大量数据预训练的图像理解与生成模型具有本身的偏好与先验，因此具有潜在的零样本泛化能力。扩散先验助力于高质量图像的生成，而多模态大模型先验则从高层给予语义理解信息。

无监督训练F-PAM助力零样本泛化。为实现可控后验采样，需要在每次迭代中将扩散模型的中间生成结果与条件图像对齐。这两个分布间的差异体现为：空间间隙（隐空间与图像空间的差异）和域间隙（正常图像域与退化域的差异）。采用无监督策略同时拟合二者，需精确对齐间隙并设计相应损失函数。为此，我们提出F-PAM网络，其包含冻结的VAE解码器和退化学习卷积模块。

｜实验结果

1.暗光增强实验

表2在LOLv1,LOLv2数据集上进行相关对比实验，“—”代表方法不能泛化到相关应用场景。LD-RPS在后验采样类方法中取得了最优结果，并与最优秀的单任务方法取得不相上下的结果。

2.图像去雾实验

我们在RESIDE数据集的HSTS子集上进行了评估。原始GDP框架缺乏对图像去雾任务中退化模式的显式建模，因此我们通过引入低光照增强的建模方式复现了其去雾能力——这利用了两种任务间全局退化特征的相似性。LD-RPS在PSNR指标上超越了所有零样本方法。

3.图像去噪实验

需要特别指出的是，GDP方法由于未能精确建模去噪任务，导致其无法有效增强含噪图像；同样地，DiffUIR因训练集中缺乏噪声-干净图像对而表现欠佳。相比之下，LD-RPS在所有评估指标上均稳定优于基线方法。

4.图像上色实验

实验表明，虽然GDP的生成结果在像素级真实感上表现理想，但其色彩饱和度不足，导致图像仍保留较大程度的灰度特征；相比之下，LD-RPS方法能够生成色彩鲜艳、对比度和饱和度显著提升的结果。

|总结与展望

本文提出了一种基于隐空间扩散的循环后验采样方法，用于解决零样本统一图像修复的挑战。该方法利用预训练模型的先验知识实现高质量复原，其核心创新在于：1）无需微调即可从单幅图像中学习退化模式，展现出卓越的泛化能力；2）构建基于隐特征的条件逆向扩散过程；3）首创循环优化策略以提升重建质量。通过系统的实验，作者证明了利用预训练生成与理解模型完成零样本复原任务的可能性，这有助于之后图像统一模型的进一步研究。