极市平台 | ACM MM 2025|南洋理工×华科×港理工联合推出 B2SCVR:实现任意码流损坏视频的一键盲修复

本文来源公众号“极市平台”,仅用于学术分享,侵权删,干货满满。

原文链接:https://mp.weixin.qq.com/s/VQ3ReU8vbGkhxYgdk2vm6A

极市导读

南科大-华中科大-港理工联合提出 B2SCVR:让视觉大模型感知视频损坏,驱动多专家特征补全网络完成修复,BSCV-YouTube-VOS/DAVIS评估视频修复性能SOTA,同步修正受画质影响的跟踪/描述错误。

导读

在不可靠信道传输、存储介质物理损坏、网络攻击等现实挑战下,视频码流文件的损坏导致的解码视频“花屏”不仅破坏信息保真度、影响用户观感,更制约了下游视觉任务。来自南洋理工大学、华中科技大学、香港理工大学的联合团队,提出了一种视觉基础模型驱动的视频修复框架 B2SCVR。该方案变革了先前方法对人工标注掩膜的依赖,另辟蹊径,构建从“检测一切损坏”到“损坏感知补全”新范式,在ACMMM 2025上展示了解决真实世界视频码流受损问题的SOTA级能力 。

图片

论文标题:Towards Blind Bitstream-corrupted Video Recovery: A Visual Foundation Model-driven Framework

ArXiv地址:https://arxiv.org/abs/2507.22481

项目主页:https://github.com/LIUTIGHE/B2SCVR

01 痛点解析:真实场景下的“盲修复”困局

高清流媒体点播、实时视频会议,乃至极端环境下的应急通信等真实业务场景中,受限于带宽波动或存储介质老化,视频码流在压缩和传输链路上极易发生损坏。这种损坏不仅表现为恼人的“马赛克”和色彩失真,更会导致目标跟踪、视频理解等下游AI任务的失效 。

然而,现有的修复方案面临着严重的落地瓶颈

  1. 标注成本高企:传统方法依赖逐帧的“损坏指示掩膜(Corruption-indication Mask)”作为输入。但在海量视频数据中,获取这种像素级掩膜需要巨大的人力成本,难以在实时系统中部署 。

  2. 修复机制“盲目”:面对千变万化的损坏模式,现有模型往往在视频损坏的区域中难以区分“有效纹理”与“损坏伪影”,导致特征提取过程产生混淆,修复效果大打折扣 。

  3. 推理成本:CVPR 2025上有研究者通过大规模的扩散模型实现了初步的盲修复方法,然而巨大的训练和推理成本使得盲修复仍然面临重重困难。

破局之道,在于引入“视觉基础模型”的强大泛化能力,实现真正的自动化“盲修复”。

02 匠心独运:从“检测一切”到“感知修复”的完美闭环

针对上述痛点,研究团队提出了B2SCVR框架。核心洞察在于:利用视觉基础模型(VFM)对视频损坏进行多层级、多尺度的深度理解,从而动态协调修复策略 。

该框架包含两大核心组件,构成了完整的修复闭环 :

Stage 1: Detect Any Corruption (DAC) —— 视觉大模型“慧眼识错”

为了解决“盲修复”中无法定位损坏的难题,DAC模块基于SAM 2.1构建 。

  • 跨域Prompt增强:通过对视频解码信息的重编码,结合自更新提示嵌入(Prompt Embeddings),DAC跨领域地增强了SAM的分层Transformer编码器 。

  • 精准定位:这使得模型对视频损坏极其敏感,能够输出像素级精度的损坏掩膜序列,实现了从“通用分割”到“损坏检测”的迁移 。

图1:Detect Any Corruption结构概览

图1:Detect Any Corruption结构概览

Stage 2: Corruption-aware Feature Completion (CFC) —— 多专家协同“对症下药”

在获取精准掩膜后,CFC模块利用从DAC强大的编码器中提取的多尺度视频损坏嵌入(Multi-scale Embeddings),进行针对性修复 。

  • 分层特征增广:首先进行分层特征增强,实现初步补全。

  • 混合残差专家(MoRE):引入一组修复专家,通过共享的损坏嵌入池和交叉注意力机制,对特征进行精细化打磨。

  • 语义级调度:为了处理复杂的损坏模式,CFC创新性地引入了CLIP视觉编码器。利用CLIP隐空间的高层语义分布,进行适应性的专家投票(Adaptive Voter),引导通道级别的残差抑制或增强,确保修复结果在语义上的一致性 。

图2:B2SCVR框架概览

图2:B2SCVR框架概览

B2SCVR框架,它通过DAC模块检测和定位视频损坏,并提取其强大编码器中得到的多尺度嵌入,输入到CFC模块进行分层的特征增广,增强的特征将进行初步的补全,再由混合can差专家协同修复并送入内容修复解码器得到修复视频。

03 卓越表现:SOTA级性能,刷新画质天花板

3.1 定量评估:全面领先

在BSCV Benchmark中受损的YouTube-VOS和DAVIS等主流数据集上,B2SCVR在盲修复与非盲修复设置下,均取得了SOTA(State-of-the-Art)的成绩 。特别是在PSNR、SSIM、LPIPS和VFID等关键指标上,全面超越了包括ProPainter、E2FGVI-HQ、BSCVR在内的现有方法  。

表1:定量分析的量化评估结果,B2SCVR在不同设置,各个指标中均有最佳性能

表1:定量分析的量化评估结果,B2SCVR在不同设置,各个指标中均有最佳性能

3.2  定性展示:肉眼可见的质变

可视化结果显示,B2SCVR不仅精准定位了各种复杂的马赛克和伪影,其修复后的视频在纹理细节和时序一致性上均表现出色,极大地提升了视觉观感 。

图3:B2SCVR通过精准检测和定位以及强力修复,实现了最佳的输出视频质量

图3:B2SCVR通过精准检测和定位以及强力修复,实现了最佳的输出视频质量

3.3 下游赋能:提升AI系统鲁棒性

不仅是画质修复,研究还展示经过B2SCVR修复的视频,能显著提升Video Captioning(视频描述)和Object Tracking(目标跟踪)等下游任务的准确性。例如,在受损的画面修复后,下游算法能重新精准捕捉到画面中的语义细节 。

图4:码流受损的视频不仅会降低视频用户的体验,还会对下游任务造成影响

图4:码流受损的视频不仅会降低视频用户的体验,还会对下游任务造成影响

04 总结与展望

B2SCVR通过整合视觉基础模型的感知与生成能力,成功打破了码流受损视频修复对人工标注的依赖,提供了一套低成本、高精度、端到端的解决方案。这不仅为流媒体传输质量提供了可靠保障,更为视频分析系统在复杂网络环境下的鲁棒运行提供了新的技术底座 。

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值