当短剧出海、跨境电商等新兴领域打造全球化内容时,面临着一个棘手的基础问题——原始视频的中文字幕。原始字幕对于海外观众来说,不仅是无效信息,还严重干扰观看体验。传统方案——直接添加对应外语字幕会导致画面杂乱,而使用马赛克或基于 GAN 的字幕擦除补全方案会导致画面模糊、帧间闪烁,都无法彻底解决这一挑战,使得优质内容的出海之路障碍重重。
如今,火山引擎视频点播带来了破局之道——应用基于 DiT 大模型与字体级分割的无痕字幕擦除功能。该方案以两大核心技术突破和强大工程能力,重新定义字幕擦除标准,不仅可以实现全片真实自然的“无痕擦除”,更灵活支持多字幕框、指定时间段的精准擦除。
一、两大技术突破:从"能用"到"优质"的代际跨越
1. 基于 DiT 的视频字幕擦除模型:视频修复的“大模型革新”
视频擦除修复(Video Inpainting)技术旨在移除视频字幕区域并修复背景,需确保修复区域在像素空间和时序维度上均保持稳定与一致。尽管当前主流学术方法(如 ProPainter、DiffuEraser)较早期技术已有显著进步,但在字幕擦除场景下仍面临关键挑战:
-
未知像素区域修复伪影与幻觉显著:基于 GAN 或 UNet 架构的扩散模型对视频中未出现的像素区域进行“脑补”时,常产生不真实的伪影或内容扭曲(幻觉),且时间稳定性差。生成内容的真实性和时序稳定性不足。
-
已知像素区域修复模糊问题突出:传统方案依赖光流、前后向传播等帧间特征融合手段,本质为平滑处理,易导致修复区域模糊。
-
辅助先验依赖制约性能:需输入光流(Optical Flow)、文本提示(Text Prompt)等先验信息,不仅增加计算开销,且光流精度直接限制修复上限。
-
笔画级精细修复能力薄弱:常规训练基于随机掩码(Random Mask),对字幕这类需要像素级精准处理的场景适配性不足,导致笔画边缘修复效果粗糙。
针对上述问题,我们设计了基于 DiT 的视频字幕擦除修复创新型模型架构。其核心点有:
1.1 强鲁棒性预训练基底
本模型基于 DiT 架构,在大规模数据上进行了预训练,对二次元、现代、古装、奇幻等多种风格的短剧内容展现出强大的泛化能力。尤其在图像未知区域的生成上,其内容的合理性与真实性大幅领先于传统

最低0.47元/天 解锁文章
2208

被折叠的 条评论
为什么被折叠?



