极市平台 | ACM MM 2025｜南洋理工×华科×港理工联合推出 B2SCVR：实现任意码流损坏视频的一键盲修复-优快云博客

本文来源公众号“极市平台”，仅用于学术分享，侵权删，干货满满。

原文链接：https://mp.weixin.qq.com/s/VQ3ReU8vbGkhxYgdk2vm6A

极市导读

南科大-华中科大-港理工联合提出 B2SCVR：让视觉大模型感知视频损坏，驱动多专家特征补全网络完成修复，BSCV-YouTube-VOS/DAVIS评估视频修复性能SOTA，同步修正受画质影响的跟踪/描述错误。

导读

在不可靠信道传输、存储介质物理损坏、网络攻击等现实挑战下，视频码流文件的损坏导致的解码视频“花屏”不仅破坏信息保真度、影响用户观感，更制约了下游视觉任务。来自南洋理工大学、华中科技大学、香港理工大学的联合团队，提出了一种视觉基础模型驱动的视频修复框架 B2SCVR。该方案变革了先前方法对人工标注掩膜的依赖，另辟蹊径，构建从“检测一切损坏”到“损坏感知补全”新范式，在ACMMM 2025上展示了解决真实世界视频码流受损问题的SOTA级能力。

论文标题：Towards Blind Bitstream-corrupted Video Recovery: A Visual Foundation Model-driven Framework

ArXiv地址：https://arxiv.org/abs/2507.22481

项目主页：https://github.com/LIUTIGHE/B2SCVR

01 痛点解析：真实场景下的“盲修复”困局

在高清流媒体点播、实时视频会议，乃至极端环境下的应急通信等真实业务场景中，受限于带宽波动或存储介质老化，视频码流在压缩和传输链路上极易发生损坏。这种损坏不仅表现为恼人的“马赛克”和色彩失真，更会导致目标跟踪、视频理解等下游AI任务的失效。

然而，现有的修复方案面临着严重的落地瓶颈

标注成本高企：传统方法依赖逐帧的“损坏指示掩膜（Corruption-indication Mask）”作为输入。但在海量视频数据中，获取这种像素级掩膜需要巨大的人力成本，难以在实时系统中部署。
修复机制“盲目”：面对千变万化的损坏模式，现有模型往往在视频损坏的区域中难以区分“有效纹理”与“损坏伪影”，导致特征提取过程产生混淆，修复效果大打折扣。
推理成本：CVPR 2025上有研究者通过大规模的扩散模型实现了初步的盲修复方法，然而巨大的训练和推理成本使得盲修复仍然面临重重困难。

破局之道，在于引入“视觉基础模型”的强大泛化能力，实现真正的自动化“盲修复”。

02 匠心独运：从“检测一切”到“感知修复”的完美闭环

针对上述痛点，研究团队提出了B2SCVR框架。核心洞察在于：利用视觉基础模型（VFM）对视频损坏进行多层级、多尺度的深度理解，从而动态协调修复策略。

该框架包含两大核心组件，构成了完整的修复闭环：

Stage 1: Detect Any Corruption (DAC) —— 视觉大模型“慧眼识错”

为了解决“盲修复”中无法定位损坏的难题，DAC模块基于SAM 2.1构建。

跨域Prompt增强：通过对视频解码信息的重编码，结合自更新提示嵌入（Prompt Embeddings），DAC跨领域地增强了SAM的分层Transformer编码器。
精准定位：这使得模型对视频损坏极其敏感，能够输出像素级精度的损坏掩膜序列，实现了从“通用分割”到“损坏检测”的迁移。

图1：Detect Any Corruption结构概览

Stage 2: Corruption-aware Feature Completion (CFC) —— 多专家协同“对症下药”

在获取精准掩膜后，CFC模块利用从DAC强大的编码器中提取的多尺度视频损坏嵌入（Multi-scale Embeddings），进行针对性修复。

分层特征增广：首先进行分层特征增强，实现初步补全。
混合残差专家（MoRE）：引入一组修复专家，通过共享的损坏嵌入池和交叉注意力机制，对特征进行精细化打磨。
语义级调度：为了处理复杂的损坏模式，CFC创新性地引入了CLIP视觉编码器。利用CLIP隐空间的高层语义分布，进行适应性的专家投票（Adaptive Voter），引导通道级别的残差抑制或增强，确保修复结果在语义上的一致性。

图2：B2SCVR框架概览

B2SCVR框架，它通过DAC模块检测和定位视频损坏，并提取其强大编码器中得到的多尺度嵌入，输入到CFC模块进行分层的特征增广，增强的特征将进行初步的补全，再由混合can差专家协同修复并送入内容修复解码器得到修复视频。

03 卓越表现：SOTA级性能，刷新画质天花板

3.1 定量评估：全面领先

在BSCV Benchmark中受损的YouTube-VOS和DAVIS等主流数据集上，B2SCVR在盲修复与非盲修复设置下，均取得了SOTA（State-of-the-Art）的成绩。特别是在PSNR、SSIM、LPIPS和VFID等关键指标上，全面超越了包括ProPainter、E2FGVI-HQ、BSCVR在内的现有方法。

表1:定量分析的量化评估结果，B2SCVR在不同设置，各个指标中均有最佳性能