论文精读：Supervised gan watermarking for intellectual property protection（增加了基础知识讲解章节）

原创

于 2025-08-20 11:44:10 发布 · 1.1k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#生成对抗网络 #人工智能 #神经网络

摘要

本文提出了一种用于保护生成对抗网络（GANs）知识产权（IP）的水印方法。该方法的目标是对GAN模型进行水印嵌入，使得GAN生成的任何图像都包含一个不可见的水印（签名），该水印的存在可以在后续阶段进行检查以验证所有权。为实现这一目标，在生成器的输出端插入一个预训练的CNN水印解码模块。然后通过包含水印损失项来修改生成器损失，以确保能够从生成的图像中提取出预设的水印。水印通过微调的方式嵌入，降低了时间复杂度。结果表明，我们的方法能够有效地在生成的图像中嵌入不可见的水印。此外，我们的方法是一种通用方法，可以适用于不同的GAN架构、不同的任务以及不同分辨率的输出图像。我们还展示了嵌入水印对多种后处理操作（包括JPEG压缩、噪声添加、模糊和颜色变换）的良好鲁棒性表现。

关键词：知识产权保护、生成对抗网络、DNN水印、深度学习安全

第一章引言

近年来，基于深度学习（DL）的人工智能技术取得了惊人的进展。因此，深度神经网络（DNN）模型越来越多地部署在各种商业产品中。然而，设计和训练DNN模型需要大量的训练数据、海量的计算资源和专业知识，其开发成本个人甚至小公司都难以承担。因此，恶意用户可能会窃取训练好的DNN模型来提供未经授权的付费服务，这侵犯了真正所有者的知识产权（IPR）。

水印技术已被应用于数字媒体所有权验证，通过将数字水印嵌入到待保护的载体媒体中。所有者能够通过从中提取水印来证明媒体所有权。受此启发，一些工作提出通过水印技术来保护DNN模型的IPR[1]–[3]。与媒体水印不同，在DNN水印中，水印直接或间接嵌入到模型参数中。根据水印提取所需的信息，DNN水印方法可分为两类，通常称为白盒和黑盒水印。在白盒DNN水印中，水印提取需要访问模型的内部参数。水印嵌入到网络的权重或激活中。嵌入通常通过定义适当的优化损失函数来执行，该函数包括水印损失项[1]、[4]、[5]。然而，许多DNN应用程序是按照机器学习即服务的范式提供的，其中只有应用程序编程接口（API）可用。在这种情况下，无法访问模型的内部参数来提取水印。这限制了白盒DNN水印的实用性。在黑盒DNN水印中，通过检查网络对特定触发信号的输出来读取水印，从而避免了访问模型内部参数的需要[3]。

到目前为止，DNN水印主要应用于卷积神经网络（CNN）。生成对抗网络（GAN）的水印受到的关注要少得多。我们依赖的基本观察是，GAN的输出在熵方面非常丰富，水印可能从每个输出中检索到，而不仅仅是对应于某些特定输入。在图像生成GAN的情况下，这相当于训练GAN使得GAN产生的所有图像都被水印，从而通过图像水印实现GAN水印。据我们所知，只有[6]中进行了这方面的一次尝试，其中提出了一种非常简单的方法，通过在水印图像数据集上简单训练GAN来执行GAN水印，具有相当好的位准确性。

本文提出了一种用于GAN水印的监督方法。我们首先训练一个基于深度学习的图像水印网络，该网络通过编码器-解码器网络将不可见的水印注入图像中。一旦水印网络训练完成，网络的解码部分被冻结并在GAN训练期间利用，以强制将水印注入GAN生成的图像中。然后通过最小化组合损失来优化生成器，该组合损失由原始GAN损失和水印损失项组成。水印解码器执行的监督确保生成的图像中存在所有者的水印（签名）。在验证阶段，所有者或第三方机构可以使用相同的水印解码器从图像中提取水印，并将其与所有者的水印进行匹配，以验证它们是否来自某个GAN模型。我们表明，通过所提出的方法，可以通过对已经训练的GAN进行几千次迭代的微调来成功嵌入水印，从而减少水印过程的计算负担和成本。此外，通过在GAN训练期间执行增强，可以实现对常见图像处理操作的良好水印鲁棒性。

我们的贡献可以总结如下：

• 我们提出了一种用于GAN IPR保护的新颖解决方案。IPR保护通过以监督方式训练GAN来实现，使得任何生成的图像都包含预设的不可见水印。水印可用于所有权验证，以防止GAN产权被侵犯。

• 我们的方法是一种通用方法，可用于对不同的GAN架构进行水印，针对不同的任务，以及具有不同生成图像分辨率。

• 通过在训练期间对GAN生成的图像在水印解码之前执行增强（即在解码器网络之前添加处理层），嵌入的水印对生成图像在后续阶段可能经历的常见后处理操作具有鲁棒性。具体而言，即使在非常严重的扰动下，水印位准确性仍保持在75%以上，这会使图像无法使用。

• 通过对已经训练的GAN进行微调来执行鲁棒的GAN水印，从而允许以降低的计算负担进行所有权保护。

本文的其余部分组织如下：我们在第二章中回顾处理DNN和水印的主要文献。第三章描述了所提出的方法。实验设置和结果在第四章中报告。我们在第五章中总结论文并提供一些评论和未来研究的提示。

第二章相关工作和背景

在本节中，我们回顾了基于DNN的图像水印和GAN水印的先前工作。

2.1. 基于DNN的图像水印

图像水印是一种过去广泛用于图像认证和所有权验证的技术。许多基于模型的方法已被提出用于水印嵌入，无论是在空间域[7]、[8]还是在频域[9]–[11]。最近，提出了几种数据驱动方法，特别是基于深度学习的方法用于图像水印。

在基于DNN的图像水印中，水印嵌入和提取由适当训练的CNN[12]、[13]执行。编码器以图像和水印消息作为输入，生成水印图像，解码器试图从中提取消息。两个网络以端到端的方式联合训练，以最小化水印图像中引入的扰动，同时最大化位提取准确性。特别是，[12]中描述的水印方法（本工作中考虑实现水印解码网络的方法，以下称为StegaStamp）可以在位准确性和图像质量方面获得出色的性能。

2.2. DNN水印和生成模型水印

DNN水印的目标是将水印嵌入DNN模型中，以保护与DNN相关的IPR并可能识别非法使用。尽管DNN水印从经典媒体水印[14]继承了一些基本概念和方法，但将水印嵌入DNN并从水印模型中恢复它与媒体水印相比是完全不同的工作，需要为此应用场景开发新的技术。已经提出了几项处理白盒和黑盒水印的工作。感兴趣的读者可以参考[15]。

迄今为止提出的大多数DNN水印方法都专注于判别网络的保护。为IPR保护对生成模型进行水印是一项不同的工作，因为它要求能够从输出中检索水印，然后用于模型认证。虽然在DNN水印中，水印被注入模型本身或与网络在对应于某些特定输入的行为相关联，但对于生成模型，水印也可以直接注入GAN输出中，即生成的图像中，以便可以建立图像的所有权，即生成它们的GAN模型。

可以说，训练水印GAN模型比训练标准DNN更复杂的任务，因为通常影响GAN训练的不稳定性问题因额外的水印嵌入任务而加剧。在过去几年中，提出了很少执行GAN水印的方法。其中大多数专注于通过将水印嵌入GAN网络内部来对GAN模型进行水印，就像对判别模型所做的那样。Ong等人[16]提出了一个基于后门的GAN保护框架。使用这种方案，只有当GAN被某些输入查询时才嵌入水印，并且嵌入的水印不是不可见的。在[17]中，提出了一种通过对其输出进行水印来保护GAN的方法，专注于GAN图像翻译的特定场景。据我们所知，唯一旨在通过指导GAN本身在其生成的图像中添加不可见水印来保护GAN的IPR的方法是[6]。该方法的工作原理如下：首先，通过利用预训练的图像水印网络将给定的不可见水印嵌入训练数据中，然后使用水印数据训练GAN。这样，不可见的水印被自动嵌入GAN生成的图像中。尽管该方法已被提出作为深度伪造取证和深度伪造归因的主动解决方案，但它也可以被视为GAN模型IPR保护的解决方案。

与[6]不同，我们的方法通过以监督方式训练GAN来实现水印嵌入，即使用预训练的水印解码器来指导训练并在优化中添加适当的水印损失项。由于监督，我们的方法可以直接控制位准确性。

第三章基础知识及原理详解

在深入了解论文提出的监督GAN水印方法之前，我们需要系统性地理解支撑这一技术的核心深度学习概念和原理。本章将从理论基础到实际应用，详细阐述这些关键技术的内在机制、发展历程和实际意义，为理解后续复杂的技术方案构建坚实的理论根基。

3.1 生成对抗网络（GANs）的深层机制与理论基础

生成对抗网络作为现代深度学习最重要的突破之一，其革命性在于将博弈论思想引入机器学习领域，开创了一种全新的无监督学习范式。自2014年Ian Goodfellow提出这一概念以来，GAN已经从一个理论构想发展为推动人工智能发展的核心技术，在图像生成、数据增强、域适应等领域产生了深远影响。

3.1.1 GAN的哲学思想与数学基础

GAN的核心思想源于博弈论中的零和博弈概念，这种设计哲学体现了一种深刻的机器学习思维：通过对抗性训练让两个网络相互竞争、相互促进，最终达到纳什均衡状态。这种竞争机制不仅仅是技术手段，更是对自然界进化机制的计算模拟，体现了"在竞争中进步"的自然法则。

生成器G的目标是学习真实数据分布 $p_{data}(x)$ ，并能够从简单的先验分布 $p_z(z)$ （通常是高斯分布或均匀分布）中采样生成逼真的样本。从数学角度看，生成器实际上在学习一个复杂的非线性映射 $G: \mathcal{Z} \rightarrow \mathcal{X}$ ，其中 $\mathcal{Z}$ 是潜在空间， $\mathcal{X}$ 是数据空间。这个映射的复杂性使得传统的显式建模方法难以处理，而GAN通过隐式建模的方式巧妙地绕过了这一难题。

判别器D则扮演着"鉴别家"的角色，其任务是区分生成样本和真实样本。从信息论的角度来看，判别器实际上在估计真实样本和生成样本之间的分布差异，这种估计为生成器的优化提供了关键的梯度信息。判别器的判别能力越强，生成器接收到的训练信号就越精确，这种相互促进的机制正是GAN训练成功的关键。

训练目标的数学表达为： $\min_G \max_D V(D,G) = E_{x \sim p_{data}(x)}[\log D(x)] + E_{z \sim p_z(z)}[\log(1 - D(G(z)))]$

这个minimax公式蕴含着深刻的数学内涵：当判别器最优时，生成器的优化目标等价于最小化真实分布和生成分布之间的Jensen-Shannon散度，这为GAN的理论分析提供了重要基础。

3.1.2 对抗训练的动力学机制与收敛性分析

对抗训练的动力学过程可以类比为一个动态博弈系统，其中生成器和判别器的参数空间构成了一个高维的策略空间。在理想情况下，当生成分布完全匹配真实分布时，判别器无法区分真假样本，此时达到全局最优解。然而，实际训练过程中存在诸多挑战，包括模式崩塌（mode collapse）、训练不稳定、梯度消失等问题。

训练不稳定性的根源在于GAN的非凸优化特性。与传统的深度学习模型不同，GAN涉及两个网络的同时优化，这创造了一个非凸非协作的博弈环境。在这种环境下，传统的梯度下降方法可能导致振荡、发散或陷入局部均衡。为解决这些问题，研究者们提出了多种改进方案，包括Wasserstein GAN、Spectral Normalization、Progressive Growing等技术，这些改进都从不同角度增强了训练稳定性。

模式崩塌现象反映了生成器学习策略的一个重要特点：生成器倾向于找到能够"欺骗"判别器的最简单方式，而不是学习完整的数据分布。这种现象从优化理论的角度可以理解为局部最优解的吸引，解决这一问题需要在网络架构、损失函数设计和训练策略等多个层面进行综合考虑。

3.1.3 GAN架构的演进与多样化发展

自原始GAN提出以来，研究者们从不同角度对其进行改进和扩展，形成了丰富的GAN家族。深度卷积GAN（DCGAN）通过引入卷积架构显著提升了图像生成质量，建立了GAN在计算机视觉领域的地位。条件GAN（cGAN）通过引入条件信息实现了可控生成，这为后续的应用奠定了基础。

StyleGAN系列代表了GAN技术的最新发展水平，其通过风格注入机制实现了前所未有的生成控制能力。StyleGAN的成功不仅在于技术创新，更在于其揭示了深度生成模型的内在结构，为理解和操控生成过程提供了新的视角。这种架构创新对本文讨论的水印技术具有重要意义，因为它为在生成过程中嵌入特定信息提供了更多可能性。