生成模型双突破|高德技术如何让AI视频「更懂人」、图像「自愈」?

ICCV(International Conference on Computer Vision)是计算机视觉领域的国际顶级学术会议,也是中国计算机学会(CCF)推荐的A类国际学术会议,今年计划于10月19日至10月25日在美国夏威夷召开。本届ICCV会议共有11,239篇有效投稿,录用2698篇,录取率为 24%。高德技术团队共5篇论文被收录。

导读

VMBench首创视频运动生成评估基准,破解人类感知与指标脱节困局,为动态场景生成提供可解释评估体系;LD-RPS创新隐式扩散循环采样,攻克复杂退化图像复原难题,实现噪声分布自适应的统一修复框架。高德机器学习团队两篇论文分别从评估与方法维度推动生成模型实际落地,共筑「感知-生成」闭环。

本文提出了首个人类感知对齐的视频运动质量评估基准 VMBench,受人类运动感知机制的启发,分层构建了五维度的运动感知评估指标 (PMM)体系和大规模的元信息引导提示生成 (MMPG)框架,覆盖了自然界中六大运动模式,为视频生成模型的运动质量评估树立了新的行业标准。

  • 论文标题|VMBench: A Benchmark for Perception-Aligned Video Motion Generation

  • 论文链接|https://arxiv.org/abs/2503.10076

  • 开源地址|https://github.com/GD-AIGC/VMBench

       图1为VMBench的整体工作流程,包含元信息引导提示词构建、主流开源模型视频生成、运动感知评估指标体系、人类感知对齐验证。

|研究背景

随着视频生成技术的飞速发展,如何科学、准确地评估生成视频的质量,尤其是运动质量,成为了一个关键挑战。现有的评估方法主要存在两大瓶颈:

  • 评估指标与人类感知脱节: 许多基于光流或特征相似度的传统指标无法有效捕捉人类在观看视频时对运动平滑度、物理常识和对象完整性的直观感受,常常得出与人类判断相悖的结论。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值