论文精读：《ItoV: efficiently adapting deep learning-based image watermarking to video watermarking》

最新推荐文章于 2025-11-25 14:31:30 发布

原创

最新推荐文章于 2025-11-25 14:31:30 发布 · 1.2k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #音视频 #人工智能

摘要

鲁棒水印技术试图在覆盖图像/视频中不可察觉地隐藏信息，使其能够抵抗各种失真。最近，基于深度学习的图像水印方法在鲁棒性和不可见性方面取得了显著进展。然而，由于高复杂性和计算成本，很少有研究专注于使用深度神经网络的视频水印。本文旨在回答这个研究问题：设计良好的基于深度学习的图像水印能否高效地适应到视频水印？我们的答案是肯定的。

首先，我们重新审视基于深度学习的水印方法的工作流程，得出一个关键洞察：视频中的时间信息对于一般计算机视觉任务可能是必要的，但对于特定的视频水印却不是。受这一洞察启发，我们提出了一种名为ItoV的方法，用于高效地将基于深度学习的图像水印适应到视频水印。具体而言，ItoV将视频的时间维度与通道维度合并，使深度神经网络能够将视频作为图像处理。

我们进一步探索了不同卷积块在视频水印中的影响。我们发现空间卷积是视频水印中的主要影响成分，深度可分离卷积在对性能影响微乎其微的情况下显著降低了计算成本。此外，我们提出了一种新的帧损失来约束每个视频片段帧中的水印强度一致，显著提高了不可见性。大量实验表明，与Kinetics-600和Inter4K数据集上的最先进方法相比，适应的视频水印方法具有优越的性能，证明了我们方法ItoV的有效性。

关键词： 图像水印、视频水印、卷积神经网络、鲁棒性、不可见性

1. 引言

随着互联网视频分享服务的快速发展，视频已逐渐成为互联网用户中占主导地位的多媒体内容。每天有许多视频在YouTube和TikTok等平台上发布。与此同时，数字水印被广泛用于保护多媒体内容免受版权侵犯。这种方法在数字内容中隐藏独特的水印信息，包括图像、视频和音频文件。

衡量数字水印性能有三个关键指标：容量、不可见性以及对各种失真的鲁棒性。这些指标彼此处于紧张关系中，意味着提高一个指标的性能将导致其他指标性能的下降。本文的主要目标是开发一种数字视频水印方法，实现更高的鲁棒性和不可见性。

最早的数字水印研究，称为最低有效位（LSB），涉及将秘密消息编码到图像像素的最低有效位上。为了提高性能，传统方法转向关注传输域，如DFT域、DCT域和DWT域。这些方法根据数据分布调整水印嵌入策略。然而，传统水印方法严重依赖浅层手工特征，需要仔细设计，无法充分利用覆盖视频的冗余信息。因此，传统方法难以同时实现对各种失真的鲁棒性。

[图1：我们利用提出的方法ItoV来适应两种最先进的图像水印方法MBRS和CIN到视频水印。这里是测试数据集中视频帧的一些视觉样本。从左到右分别是：覆盖视频帧V_c、水印视频帧V_w以及它们之间的残差信号R = |V_w - V_c|。残差信号被放大五倍以便可视化。]

基于深度学习的图像水印最近取得了显著成功，性能明显优于传统水印方法。然而，由于视频神经网络的复杂性和训练所需的高计算成本，基于深度学习的视频水印技术研究仍然有限。虽然我们可以将视频帧视为图像并直接使用数字图像水印方法在其中嵌入水印，但这种直接方法不允许神经网络基于视频数据的特征学习有用特征，使其难以抵抗针对视频的各种失真。我们也可以在图像水印网络中使用3D卷积代替2D卷积来实现视频水印。然而，这种改变导致计算成本的显著增加。

为了解决这些限制，我们重新审视通过神经网络在图像/视频中嵌入和提取水印的过程。

2. 相关工作

2.1 基于深度学习的水印技术

数字水印是内容版权保护的流行技术。近年来，基于深度学习的方法在不可见性和对各种失真的鲁棒性方面同时表现出色，这得益于深度神经网络强大的特征提取能力。

Zhu等人是第一个提出端到端基于深度学习的水印方法。主要架构遵循编码器-噪声层-解码器结构，类似于自编码器。此外，采用了判别器来减少水印对人类感知的可见性。此外，Ahmadi等人将域变换技术与神经网络结合，并利用强度因子来调整图像中水印的强度。其他一些工作旨在通过关注复杂和现实的失真来扩大应用范围。

为了实现对预期失真的高鲁棒性，最常见和有效的方法是在训练期间在编码器和解码器之间引入攻击模拟层。然而，这种方法不适用于不可微分失真，如JPEG压缩和H.264压缩。Hidden引入了可微分的JPEG-Mask和JPEG-Drop来近似真实JPEG压缩以解决这一限制。然而，该方法仍然缺乏对真实JPEG压缩的鲁棒性。Liu等人开发了两阶段可分离框架来解决不可微分失真问题。Jia等人通过提出新颖的小批量模拟和真实JPEG压缩训练方法，专注于提高对JPEG压缩的鲁棒性。随后，Zhang等人提出采用前向攻击模拟层作为简单有效的方法来提高基于深度学习的水印对不可微分失真的鲁棒性。

基于深度学习的水印也已应用于视频。Weng等人为视频隐写术引入了U-net，并取得了优异的性能。然而，他们没有考虑视频失真。RivaGAN在三种常见视频失真下保持了高不可见性和鲁棒性，但忽略了不可微分的H.264压缩，这是视频中最关键的失真。Luo等人开发了一个模拟H.264压缩的神经网络，以提高DvMark中对真实H.264压缩的鲁棒性。以前的工作已经证明了深度学习在数字水印方面的潜力。

2.2 视频卷积神经网络

虽然3D卷积神经网络（CNN）在视频水印方面已经表现出优于传统方法的性能，但现有的3D网络通常需要大量的计算资源。此外，3D CNN的训练更不稳定，收敛速度较慢。因此，研究人员正在寻求3D CNN的高效替代方案。

Simonyan和Zisserman提出了双流框架，使用两个2D CNN分别学习视频的空间和时间信息。Tran等人通过将3D卷积层分解为因式分解卷积层来提高性能和效率。MobileNet引入了深度可分离卷积来优化移动应用的模型大小和计算成本。Tran等人将深度可分离卷积应用于3D网络，以开发资源高效的模型。这些卷积块已被证明能够有效地泛化到各种任务，如动作检测、时间动作定位和手势检测。然而，没有研究调查不同卷积块对视频水印的影响。