当前（2024-07-14）视频插帧（VFI）方向的 SOTA 基本被三篇顶会工作占据，按“精度-速度-感知质量”三条线总结如下，供你快速定位最新范式

最新推荐文章于 2025-12-14 13:04:37 发布

原创最新推荐文章于 2025-12-14 13:04:37 发布 · 630 阅读

·

7

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

当前（2024-07-14）视频插帧（VFI）方向的 SOTA 基本被三篇顶会工作占据，按“精度-速度-感知质量”三条线总结如下，供你快速定位最新范式。

感知质量最佳：CVPR 2024 ‑ PerVFI
• 关键词：非对称融合 + Normalizing Flow 先验
• 亮点：把光流误差导致的重影问题显式建模为“特征不对齐”，用稀疏约束的非对称融合＋基于流的生成器一次性解决重影和模糊；在 Xiph-4K、Vimeo90K 等基准上 PSNR/SSIM 不是最高，但 LPIPS、用户主观评分第一。
• 代码/模型：https://github.com/mulns/PerVFI
通用精度最佳：CVPR 2022 ‑ IFRNet（更新版 RIFE++）
• 关键词：光流-特征联合精炼、一次前向推理
• 亮点：把“中间光流估计”和“中间帧特征重建”放在同一个 encoder-decoder 里 coarse-to-fine 联合优化，避免级联网络延迟；RIFE++ 蒸馏后 1080p 单帧 6-8 ms，可实时 30→240 fps。
• 代码/模型：https://github.com/megvii-research/IFRNet
生成式新路线：LDMVFI（首次将 Latent Diffusion 引入插帧）
• 关键词：LDM + 隐空间扩散
• 亮点：把插帧形式化为条件生成任务，利用潜在扩散模型在紧凑隐空间内去噪，生成高感知质量中间帧；在极端复杂运动和光照突变场景下优于传统 CNN 方法。
• 代码/模型：尚未开源，但论文已公开（2024-08 见刊）

补充两条工程向进展
• 高分辨率：XVFI（CVPR2021）仍是 4K 以上大运动场景的 baseline，基于递归多尺度共享结构，显存占用低。
• 轻量化：CDFI 在保持 AdaCoF 性能的同时，参数量×0.25，适合移动端部署。

一句话总结
要“效果顶”直接用 PerVFI；要“又快又好”选 IFRNet/RIFE++；想追生成式热点可关注 LDMVFI。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。