

ICCV(International Conference on Computer Vision)是计算机视觉领域的国际顶级学术会议,也是中国计算机学会(CCF)推荐的A类国际学术会议,今年计划于10月19日至10月25日在美国夏威夷召开。本届ICCV会议共有11,239篇有效投稿,录用2698篇,录取率为 24%。高德技术团队共5篇论文被收录。


导读

VMBench首创视频运动生成评估基准,破解人类感知与指标脱节困局,为动态场景生成提供可解释评估体系;LD-RPS创新隐式扩散循环采样,攻克复杂退化图像复原难题,实现噪声分布自适应的统一修复框架。高德机器学习团队两篇论文分别从评估与方法维度推动生成模型实际落地,共筑「感知-生成」闭环。


本文提出了首个人类感知对齐的视频运动质量评估基准 VMBench,受人类运动感知机制的启发,分层构建了五维度的运动感知评估指标 (PMM)体系和大规模的元信息引导提示生成 (MMPG)框架,覆盖了自然界中六大运动模式,为视频生成模型的运动质量评估树立了新的行业标准。
论文标题|VMBench: A Benchmark for Perception-Aligned Video Motion Generation
论文链接|https://arxiv.org/abs/2503.10076
开源地址|https://github.com/GD-AIGC/VMBench

图1为VMBench的整体工作流程,包含元信息引导提示词构建、主流开源模型视频生成、运动感知评估指标体系、人类感知对齐验证。
|研究背景
随着视频生成技术的飞速发展,如何科学、准确地评估生成视频的质量,尤其是运动质量,成为了一个关键挑战。现有的评估方法主要存在两大瓶颈:
评估指标与人类感知脱节: 许多基于光流或特征相似度的传统指标无法有效捕捉人类在观看视频时对运动平滑度、物理常识和对象完整性的直观感受,常常得出与人类判断相悖的结论。

最低0.47元/天 解锁文章
449

被折叠的 条评论
为什么被折叠?



