深度学习在隐写与隐写分析中的应用

最新推荐文章于 2025-11-24 23:34:07 发布

原创最新推荐文章于 2025-11-24 23:34:07 发布 · 955 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #隐写分析 #CNN #GAN #隐写术

14 深度学习在隐写术和隐写分析中的应用

马克·肖蒙 a,b
a 加利福尼亚州，法国国家科学研究中心（LIRMM，UMR5506），尼姆大学，法国蒙彼利埃
b LIRMM/ICAR，法国蒙彼利埃

14.1 引言

神经网络自20世纪50年代以来就一直被研究。最初，它们被提出用于模拟大脑的行为。在计算机科学领域，特别是在人工智能中，它们已被用于学习目的约30年。大约十年前[1]，神经网络被认为学习时间较长，且效果不如支持向量机或随机森林等分类器。

得益于显卡（GPU）提供的计算能力以及可用数据的丰富，近年来神经网络领域取得了最新进展[2]，深度学习方法被提出作为神经网络的自然延伸。自2012年以来，这些深度网络深刻影响了信号处理和人工智能领域，因为它们的性能不仅能够超越现有方法，还能够解决科学家们此前一直未能解决的问题[3]。

在隐写分析中，过去10年主要通过计算丰富模型（RMs）[4]，然后使用分类器EC[5]进行分类，来检测图像中的隐藏消息。2015年，首次使用卷积神经网络（CNN）的研究取得了深度学习隐写分析的初步成果，其性能接近传统的两步法（EC+ RM1）[6]。在2015年至2018年期间，大量研究证明，在空间域隐写分析、JPEG隐写分析、辅助信息隐写分析、定量隐写分析等方面，均可通过深度学习获得更优的性能。

在第14.2节中，我们泛化地介绍了深度神经网络的结构。本节重点介绍隐写分析领域的现有文献，读者应补充学习人工智能学习方法，特别是梯度下降和随机梯度下降。

在另外三个本章未包含的部分中，可在ArXiv（https://arxiv.org/abs/1904.01444）获取，我们解释了卷积模块的不同步骤，探讨了复杂性和学习时间，并介绍了深度学习与先前方法之间的联系。

1 我们将注明EC+ RM，以表示基于RMs计算和使用EC的两步法。

321

322 数字媒体隐写术

在第14.3节中，我们回顾了2015年至2018年期间为不同隐写分析场景提出的各种网络。

最后，在第14.4节中，我们讨论了基于深度学习的隐写术，该方法以先驱算法ASO的方式在两个网络之间建立博弈[7]。

14.2 深度神经网络的基本构件

在接下来的小节中，我们将回顾卷积神经网络（CNN）的主要概念。具体来说，我们将回顾基于Yedroudj‐Net2网络的基本构建块，该网络发表于2018[8]（见图14.1），并继承了Alex‐Net[9]，以及用于隐写分析的网络中的思想，包括Qian et al.[6]的首个网络和Xu‐Net[10]与Ye‐Net[11]的网络。

示意图0

2 Yedroudj‐Net的GitHub链接：https://github.com/yedmed/steganalysis_使用_卷积神经网络_Yedroudj-Net。

Chapter 14 •深度学习在隐写术和隐写分析中的应用 323

其中每个节点代表一个计算单元。然后通过向网络提供由图像及其标签组成的示例来完成学习，网络借助反向传播机制调整这些计算单元的参数（即学习）。

用于隐写分析的卷积神经网络主要由三个部分构成，我们将这三个部分称为模块：预处理模块、卷积模块和分类模块。作为示例，图14.1示意了Yedroudj等人[8]于2018年提出的网络。该网络处理大小为256×256像素的灰度图像。

14.2.1 卷积神经网络的全局视图

在描述神经网络的结构及其基本组件之前，有必要记住神经网络属于机器学习类别。在监督学习的情况下——这也是最关乎我们的情况——必须拥有一个带有标签的图像数据库，即每幅图像都有其对应的类别。

深度学习网络是能够直接处理原始输入数据的大型神经网络。在图像处理中，网络直接由构成图像的像素驱动。因此，深度学习网络以联合方式学习图像的紧凑内在特征（我们称之为特征图或潜在空间），同时学习用于分类的分类边界（我们也称之为分离平面）。

学习协议类似于经典机器学习方法。每幅图像作为输入提供给网络。每个像素值被传输到一个或多个神经元。网络由给定数量的块组成。一个块由接收实数输入值、执行计算并将实际的计算值传递给下一个块的神经元组成。因此，神经网络可以用有向图表示。

14.2.2 预处理模块

我们可以从图14.1中观察到，在预处理模块中，图像被30个高通滤波器进行滤波。在2015年至2018年期间用于隐写分析的大多数网络中，都采用了单个或多个高通滤波器作为预处理。

一个高通滤波器核的示例，即方形S5a滤波器[4]，在方程中给出

$$
F(0)= \frac{1}{12}
\begin{pmatrix}
-1 & 2 & -2 & 2 & -1 \
2 & -6 & 8 & -6 & 2 \
-2 & 8 & -12 & 8 & -2 \
2 & -6 & 8 & -6 & 2 \
-1 & 2 & -2 & 2 & -1
\end{pmatrix}.
\tag{14.1}
$$

示意图1

滤波（卷积）原理的示意图如图14.2所示。这一初步滤波步骤可使网络更快收敛，并且当训练数据库过小时，可能需要此步骤以获得良好的性能[12]（仅包含4,000对大小为256×256像素的载体/隐写图像）。滤波后的图像随后被传送到网络的第一个卷积模块。需要注意的是，近期的SRNet[13]网络不使用任何固定预滤波器，而是学习滤波器。因此，它需要更大的数据库（超过15,000对大小为256×256像素的载体/隐写图像）以及更强的初始化技术。值得注意的是，学术界目前仍在讨论是否应使用固定滤波器，或用预设值初始化滤波器后再继续学习，还是采用随机初始化来学习滤波器。在2019年初的实际应用[14]中，最佳选择可能与训练数据库的大小相关

324 数字媒体隐写术

（不一定非得是BOSS[15]或BOWS2[16]），以及使用迁移学习的可能性。

14.2.3 卷积模块

在卷积模块中，我们发现若干宏观计算单元，称之为块。一个块由计算单元组成，这些计算单元接收实数输入值，执行计算，并返回实数值，供下一个块使用。具体而言，一个块将一组特征图（=一组图像）作为输入，并输出一组特征图（=一组图像）。在一个块内部，包含若干操作，主要有以下四种：卷积、激活、池化以及归一化（详细信息见 https://arxiv.org/abs/1904.01444）。

在现有文献中定义的神经元概念，在卷积网络出现之前就已经存在，如今仍然保留，但在神经网络库中已不再作为数据结构存在。在卷积模块中，我们必须将神经元想象为一个计算单元，它针对卷积操作过程中卷积核所取的特征图中的某个位置，对卷积核与对应像素组进行加权求和。神经元的概念对应于输入数据（像素）与神经元特有数据（卷积核的权重）之间的标量积，随后应用一个从R到R的函数，称为激活函数。进而可以推而广之，池化和归一化也是神经元特有的操作。

因此，块的概念上对应于一层神经元。需要注意的是，在深度学习库中，我们将卷积、激活、池化、归一化等基本操作都称为层。为了消除歧义，对于卷积模块，我们将使用块和操作的说法，并避免使用术语层。

在不计算预处理模块的情况下，Yedroudj-Net网络[8]的卷积模块由五个卷积块组成，与钱等人[6]和徐等人[10]的网络类似。Ye-Net网络[11]的卷积模块由8个卷积块组成，而SRNet网络[13]的卷积模块由11个卷积块构成。

14.2.4 分类模块

卷积模块的最后一个块（参见上一节）连接到分类模块，该模块通常是由一到三个块组成的全连接神经网络。这个分类模块通常是一个传统神经网络，其中每个神经元都与前一个块的神经元和下一个块的神经元完全连接。

全连接模块通常以softmax函数结尾，该函数将网络输出的值在[0,1]之间进行归一化，使得所有输出的总和等于1。这些输出被不精确地称为“概率”。我们将沿用这一说法。因此，在常规的二值隐写分析场景中，网络输出两个值：一个表示分类到第一个类别（例如，载体类）的概率，另一个

Chapter 14 •深度学习在隐写术和隐写分析中的应用 325

给出被分类到第二类别（例如，隐写类别）的概率。然后通过返回概率最高的类别来获得分类决策。注意，在此分类模块之前，我们可以找到一种特定的池化操作，例如全局平均池化、空间金字塔池化（SPP）[17]，或统计矩提取器[18]等。这类池化操作会返回一个固定大小的值向量，即具有固定维度的特征图。因此，紧随该池化操作之后的下一个块始终连接到一个固定大小的向量，从而具有固定数量的输入参数。因此，可以将任意大小的图像输入网络，而无需修改网络的拓扑结构。例如，Yedroudj‐Net[8]网络、Zhu‐Net[19]网络以及Tsang等人提出的网络[18]均具备这一特性。

此外，[18]是本章撰写时唯一一篇认真考虑了输入图像维度不变网络可行性的论文。该问题仍未解决。[18]中提出的解决方案是平均池化概念的一种变体。目前，关于这一主题的研究仍不足，尚无法确定网络的正确拓扑结构、如何构建学习数据库、嵌入比特数量对学习的影响程度，或是否应在固定安全性或任意载荷大小下考虑平方根定律进行学习等问题。

14.3 2015年至2018年使用的不同网络

示意图2

图14.3给出了2015年至2018年提出的用于隐写术和隐写分析的主要卷积神经网络的时间线。

首次尝试使用深度学习方法进行隐写分析可以追溯到2014[20]使用自编码器。2015年初，钱等人[6]提出使用卷积神经网络。一年后，Pibre等人[21]提出继续该研究。

2016年，首次获得了接近当前最先进的方法（EC+RMs）的性能结果，这些结果是通过卷积神经网络集成实现的[22]，如图14.4所示。Xu‐Net3[10]卷积神经网络被用作卷积神经网络集成的基础学习器。

示意图3

2017年提出了其他用于JPEG隐写分析的网络。在[23,24]（图14.5和14.6）中，作者提出了一种受RMs启发的预处理方法，并使用了大规模学习数据库。结果接近当时最先进的方法（EC+ RMs）。在[25]中，网络结构采用了一种受JPEG压缩过程启发的相位分割设计。

需要使用卷积神经网络集成才能获得略优于当前最佳方法的结果。在Xu‐Net‐Jpeg[26]中，采用了一种受ResNet启发的卷积神经网络[27]，结合快捷连接技巧和20个模块，在准确率方面也提升了性能。需要注意的是，2018年ResDet[28]提出了一种Xu‐Net‐Jpeg的变体[26]，取得了相似的结果。

这些结果非常令人鼓舞，但与使用带有RMs的EC[5]的传统方法相比，利用深度学习方法[3]在隐写分析上取得的增益在其他图像处理任务中的提升不足10%。

3 在本章中，我们引用了Xu-Net，这是一种与[10]中给出的卷积神经网络类似的模型，而不是集成版本[22]。

Chapter 14 •深度学习在隐写术和隐写分析中的应用 327

示意图4

示意图5

[4,49]或具有选择通道感知的RMs[29],[30],[31]。在信号处理的其他领域中，深度学习的应用已取得革命性的重要进展，但在隐写分析领域尚未出现类似突破。2017年，提升卷积神经网络性能的主要趋势包括使用卷积神经网络集成、通过模拟RMs提取过程来修改网络拓扑结构，或采用ResNet。在大多数情况下，相较于AlexNet[9],VGG16[32],GoogleNet[33], ResNet[27],等网络，这些方法的设计和实验成本非常高，但性能提升却十分有限，这促使了本研究的开展。

到2017年底和2018年初，研究重点已集中在空间隐写分析上。Ye‐Net[11]（图14.7）、Yedroudj‐Net4[12,8]（图14.8）、ReST‐Net[34]（图14.5和14.6）、SRNet5[13]（图14.9）分别于2017年11月发表，

4 Yedroudj‐Net源代码：https://github.com/yedmed/steganalysis_使用_卷积神经网络_Yedroudj-Net。
5 SRNet源代码：https://github.com/Steganalysis-CNN/residual-steganalysis。
328 数字媒体隐写术

示意图6

示意图7

2018年1月、2018年5月和2019年5月（在线版本发布于2018年9月）。所有这些网络都明显超越了使用EC[5]和RMs[4]的“传统”两步机器学习范式。其中大多数网络可以在数据库规模较小的情况下进行学习（即，约15,000对来自BOSS和BOWS2的256×256像素大小的8位编码图像的载体/隐写图像）。2018年，表现最佳的网络是Yedroudj‐Net[8], ReST-Net [34],和SRNet[13]。

Yedroudj‐Net是一个小型网络，能够在非常小的数据库上进行学习，即使不使用迁移学习[35],数据库虚拟增强[11],等已知提升性能的技巧，也依然有效。该网络在处理生成对抗网络（GANs）时是一个良好的候选方案。它优于Ye‐Net[11]并且可以进一步改进以应对其他更近期的网络[19]。ReST‐Net[34]是由三个子网络组成的一个大型网络，采用了多种预处理滤波器组。SRNet[13]是一种可适用于空间域或JPEG隐写分析的网络。它需要使用数据库虚拟增强和迁移学习等多种技巧，因此相比Yedroudj‐Net需要更大的数据库。这三个网络在第14.3.1节中进行了描述。

综上所述，2015年至2016年的研究主要集中在空间域隐写分析，2017年的研究主要集中于JPEG隐写分析。2018年，研究再次主要集中于空间域隐写分析。最后，在2017年底，首次出现了使用生成对抗网络（GANs）的研究成果。在第14.4节中，我们介绍了基于深度学习的隐写术的新方法，并按类别进行了分类。

在下一小节中，我们将报告截至2018年底在各种场景下最成功的网络。在第14.3.1节中，我们描述了非感知侧信道(Not‐SCA)场景；在第14.3.2节中，我们讨论称为感知侧信道(SCA)的场景；在第14.3.3节中，我们处理JPEG隐写分析的Not-SCA和SCA场景。在第14.3.4节中，我们非常简要地讨论载体源不匹配问题，尽管目前尚不存在使用卷积神经网络的相关提案。

我们不会讨论对图像大小不变的卷积神经网络场景，因为该技术尚未足够成熟。该场景在第14.2.4节中进行了简要讨论，Yedroudj‐Net[8],Zhu-Net[19],或Tsang等人[18]的工作给出了最初的解决方案。

我们不会涉及基于CNN的定量隐写分析场景，该场景旨在估计嵌入载荷大小。该场景在论文[36]中得到了非常深入的研究，并成为一种新的最先进的方法。该方法超越了以往依赖于RMs、树集成以及特征高效归一化的最先进的方法[37,38]。

我们也不会讨论使用卷积神经网络的批量隐写术和聚合隐写分析，尽管[39]中提出的两阶段机器学习方法可以扩展到深度学习，但这一领域尚未被涉及。

330 数字媒体隐写术

14.3.1 空间隐写分析非侧信道感知（Not‐SCA）

2018年初，最成功的空间域隐写分析方法是Yedroudj‐Net[8]方法（图14.7）。实验在BOSS数据库上进行，该数据库包含10,000张图像，下采样至256×256像素。为了公平比较，实验将该方法与无EC的Xu‐Net[10]以及Not‐SCA版本的Ye‐Net网络[11],和由空间残差模型提供输入的EC[5]进行了对比[4]。需要注意的是，Zhu‐Net[19]（本章撰写时尚未发表）对Yedroudj‐Net提出了三项改进，使其效率更高。Zhu‐Net[19]报告的改进包括：更新预处理模块的卷积核滤波器（与Matthew Stamm团队在取证学[40]中提出的方案类似），将前两个卷积块替换为两个深度可分离卷积模块，如[41]所提出，最后将全局平均池化替换为空间金字塔池化（SPP）模块，如[17]所示。

2018年5月[34]提出了ReST‐Net（图14.5和14.6）。它由三个网络聚合而成，形成一个超网络。每个子网络都是类似Xu‐Net的改进网络[10]，类似于Yedroudj‐Net[8]网络，在块2和块4上包含Inception模块。该Inception模块包含相同尺寸的滤波器，每条“路径”使用不同的激活函数（双曲正切函数、ReLU、S形函数）。第一个子网络使用16个Gabor滤波器进行预处理，第二个子网络使用16个SRM线性滤波器进行预处理，第三个网络使用14个非线性残差（基于SRM计算的最小值和最大值）进行预处理。学习过程需要四个步骤（每个子网络各一步，然后对超网络再进行一步）。在BOSSBase v1上的实验结果显示，其性能比Xu‐Net在S‐UNIWARD[42], HILL[43], CMD-HILL[44]算法上的表现高出2%至5%。从结果来看，是集成的概念提升了性能。单独来看，每个子网络的性能都较低。目前尚未在公平的框架下对Yedroudj‐Net集成与ReST‐Net进行比较。

2018年9月，SRNet[13]方法在线发布（见图14.9）。该方法提出了一种比以往网络更深的结构，由12个卷积块组成。该网络不进行预处理（滤波器是学习得到的），并且仅从第8个卷积块开始对信号进行下采样。为了避免梯度消失问题，第2至第11个模块采用了短路连接机制。在池化（下采样）阶段，从第8个模块开始也引入了Inception机制。训练数据库通过BOWS2数据库进行了扩充，如[11]或[12]中所述，并使用课程学习机制[11]来从标准载荷大小0.4 bpp切换到其他载荷大小。最后，采用Adamax[45]进行梯度下降。该网络可用于空间域隐写分析（Not‐SCA）、知情（SCA）空间隐写分析（如第14.3.2节所述），以及JPEG隐写分析（见第14.3.3节，Not‐SCA或SCA）。总体而言，其设计理念与之前的网络相似，分为三个部分：预处理（使用学习得到的滤波器）、卷积块和分类块。简化来看，该网络相当于在Yedroudj‐Net网络的第一个卷积模块之后，直接增加了5个无池化的卷积模块。

为了能在现代GPU上运行如此大量的模块，作者必须将特征图的数量减少至16，并且为了避免梯度消失，他们必须使用块内残差短路连接技巧，如[27]中所提出的。请注意，在前七个模块中保持信号大小不变是一种激进的方法。这一想法已在[21]中提出，其中取消池化明显改善了结果。使用诸如短路连接或Inception模块等现代模块也有助于提升性能。

还应注意，训练是端到端完成的，无需特殊初始化（除非使用课程学习机制）。在最初的发表[13]中，SRNet网络未与Yedroudj‐Net[8]或Zhu‐Net[19]进行比较，但后来在2019年[19]，所有这些网络都进行了比较，结果表明，在使用常规比较协议时，Zhu‐Net相较於SRNet性能提升了1%至4%，相较于Yedroudj‐Net性能提升了4%至9%。需要注意的是，Zhu‐Net也优于IH&MMSec’2019[46]上发表的Cov‐Pool网络，其性能与SRNet相当。

示意图8

14.3.2 基于边信道信息的隐写分析（SCA）的空间域隐写分析

2018年底，有两种方法结合了选择通道的知识，即SCA‐Ye‐Net（Ye‐Net的侧信道感知版本）[11]和SCA‐SRNet（SRNet的侧信道感知版本）[13]。其思路是使用一个用于无先验信息隐写分析的网络，不仅输入待隐写分析的图像，还输入修改概率图。因此假设伊芙知道或能够较好地估计[47]修改概率图，也就是说，伊芙可以获得边信道信息。

修改概率图被输入到预处理模块。SCA‐Ye‐Net[11]同样地，对于SCA‐SRNet则输入到第一个卷积模块[13]，但卷积核值被替换为其绝对值。卷积之后，每个特征图与相应卷积后的“修改概率图”进行逐点相加（图14.10）。注意SCA‐Ye‐Net中第一个卷积的激活函数，即trun-

示意图9

激活函数（论文中的truncated linear unit (TLU)）被替换为ReLU。这使得与图像相关的信息以及与修改概率图相关的信息能够在网络中“虚拟地”进行传播（前向传递）。

请注意，将非侧信道感知卷积神经网络（Not‐SCA‐CNN）转换为侧信道感知卷积神经网络（SCA‐CNN）的这一过程，灵感来源于[30]和[31]中提出的修改概率图传播方法。这两篇论文是对先前的MaxSRM RMs[29]的改进。在MaxSRM中，不再累积共生矩阵中的出现次数，而是累积局部概率的最大值。在[30]和[31]中，其思路是以类似于图像滤波的方式对修改概率图进行变换，然后使用变换后的修改概率图（而非原始修改概率图）来更新共生矩阵。这一原理最初被集成到Ye‐Net中用于卷积神经网络隐写分析，且该概念可轻松移植到大多数现代卷积神经网络中。

14.3.3 JPEG隐写分析

截至2018年底，最先进的JPEG卷积神经网络是SRNet[13]。需要注意的是，该网络在此期间是唯一提出具有侧信道感知（SCA）版本的网络。

有趣的是，可以列出并快速讨论此前用于JPEG隐写分析的卷积神经网络。首个网络由曾等人于2017年2月发表，使用了百万张图像进行评估，并对隐写错配进行了有限的评估[23,24]。

随后，在2017年6月的IH&MMSec’2017会议上，提出了两个网络：PNet[25]和Xu‐Net‐Jpeg[26]。最后，SRNet[13]于2018年9月上线。

在Zeng等人的网络[23,24]中，预处理模块以反量化（实数值）图像作为输入，然后使用25个DCT基对其进行卷积，再对得到的25幅滤波图像进行量化和截断。该预处理模块采用手工设计滤波器核（DCT基），其核值是固定的，这些滤波器的设计灵感来源于DCTR RMs[48]。由于采用了三种不同的量化方式，因此预处理模块生成3×25幅残差图像。随后的卷积神经网络由三个子网络构成，每个子网络生成一个512维的特征向量。这些子网络的设计受到Xu‐Net[10]的启发。三个子网络输出的特征向量被送入一个全连接结构，最终网络以softmax层结束。

与空间域隐写分析所采用的方法类似，该网络使用了一个受RMs[48]启发的预处理模块。需要注意的是，当前最有效的RMs是Gabor滤波器RMs[49]。此外，该网络利用了特征集成的概念，该概念来源于三个不同的子网络。Zeng等人提出的网络效率低于Xu‐Net‐Jpeg[26]，但提供了由RMs引导的一个有趣的初步方法。

PNet的主要思想（以及效率较低但占用内存较少的VNet）[25]是模仿相位感知的RMs，例如DCTR[48], PHARM[50],或GFR[49],，从而将输入图像分解为64个特征图，代表JPEG图像的64个相位。预处理模块以去量化（实值）图像作为输入，使用四个滤波器对其进行卷积，这四个滤波器来自Spatial Rich的“SQUARE5×5”模型[4],一个“点”高通滤波器（称为“催化剂核”），用于补充“SQUARE5×5”，以及两个方向Gabor滤波器（角度0和π/2）。

在第二个卷积模块之后，“相位分割模块”将残差图像分割为64个特征图（一个特征图对应一个相位），这与RMs中的处理方式类似。采用了一些有趣的方法，例如：（1）预处理模块中固定卷积与具有可学习参数的第二层卷积依次连接；（2）对BN参数进行巧妙更新；（3）使用“滤波器组选项”，从而虚拟地构建子网络；（4）在5折交叉验证上应用装袋法；（5）取网络最后5次评估结果计算平均误差；（6）在每轮次开始时打乱数据库，以获得更好的BN行为并提升泛化能力；（7）最终使用集成方法。凭借这些技术经验，PNet在非侧信道感知版本和侧信道感知版本（EC+ GFR）中均超越了传统的两步机器学习方法。

Xu‐Net‐Jpeg[26]更具吸引力，因为该方法略优于PNet，且不需要像PNet那样依赖强烈的领域启发。Xu‐Net‐Jpeg深受ResNet[27]的启发，而ResNet是机器学习社区中一个被广泛认可的网络。得益于短路连接的使用，ResNet能够构建更深层的网络。在Xu‐Net‐Jpeg中，预处理模块以去量化（实值）图像作为输入，然后将图像与16个DCT基进行卷积（与曾等人的网络[23,24]思路相同），接着应用绝对值、截断以及一系列卷积、BN、ReLU操作，直到获得一个384维的特征向量，再将其传递给全连接块。需要注意的是，最大池化或平均池化在此被卷积所取代。该网络结构非常简单，在2017年是先进的方法。某种程度上，这类结果告诉我们，机器学习社区提出的网络具有很强的竞争力，无需过多地将领域知识融入网络拓扑结构即可获得高效的网络。

2018年，用于JPEG隐写分析（也可用于空间域隐写分析）的最先进卷积神经网络是SRNet[13]。该网络此前已在第14.3.1节中介绍过。请注意，对于侧信道感知版本的SRNet，每个DCT系数的嵌入变化概率首先通过DCT基的绝对值映射回空间域。此侧信道图随后输入网络，并与每个核进行卷积（该首次卷积充当预处理模块）。注意，该第一模块中对侧信道图的卷积具有如下特性：滤波器核被修改为其绝对值。在经过卷积后，特征图与卷积后的侧信道图的值的平方根相加。注意，这一思想类似于SCA Ye‐Net版本（SCA‐TLU‐CNN）[11]中关于侧信道图集成的方法，以及近期提出的基于RMs[31]的JPEG侧信道感知隐写分析方法，其中定义了侧信道图的构造，特别是量δ1/2uSA6的定义。注意，在IH&MMSec’2019[51]中提出了一种类似的解决方案，该方案将更多卷积应用于侧信道图。

6 uSA 是指绝对值上限和。

334 数字媒体隐写术

14.3.4 关于错配现象场景的讨论

不匹配（载体源不匹配或隐写错配）是机器学习中存在的现象，由于训练数据库与测试数据库分布之间的不一致，导致分类性能下降。该问题并非源于机器学习算法的泛化能力不足，而是由于训练和测试数据库中缺乏相似的样本。不匹配问题远远超出了隐写分析的范畴。

在隐写分析中，这种现象可能由多种因素引起。载体源不匹配可能是由于使用了不同的光电传感器、不同的数字处理、不同的相机设置（焦距、ISO、镜头等）、不同的图像尺寸、不同的图像分辨率等所致[52,53]。隐写错配可能是由于嵌入比特数量不同或嵌入算法不同所导致。

即使尚未被充分探索和理解，不匹配（载体源不匹配（CSM）或隐写不匹配）仍将是未来几年该学科研究的主要领域。在ACM会议IH&MM‐Sec’2019上发布的阿拉斯加挑战[54]7结果将继续推动这些方面的研究。

2018年，载体源错配（CSM）已经建立了10年[55]。目前主要有两大思想流派，以及第三种更为奇特的流派：

第一种思想流派是所谓的整体方法（即全局、宏观或系统性方法），其核心在于学习所有分布[56,57]。使用一个包含数百万图像的卷积神经网络[24]正是这一思想流派的逻辑延续。需要注意的是，该场景在学习过程中不考虑使用测试集。该场景可类比为一种在线场景，从博弈论的角度来看，最后一个行动的参与者是隐写者，因为在在线场景中，隐写者可以改变其策略，而隐写分析器则不能。
第二种思想流派是原子化方法（即分区的、微观的、分析性的、分而治之型或个体化的），其核心在于对分布[58]进行划分，也就是创建一个划分，并为该划分的每个单元分配一个分类器。请注意，[59]中提出了一种利用卷积神经网络多分类器管理隐写错配的原子化方法示例（每个嵌入算法对应一个类别，因此存在潜在划分）。此外，这一思想[59]已被阿拉斯加挑战[60]的获胜者所采用。还需注意的是，该场景并未考虑在学习过程中可以使用测试集。此场景也可类比为一种在线场景，从博弈论的角度来看，最后一个行动的参与者是隐写者，因为在在线场景中，隐写者可以改变其策略，而隐写分析者则不能。
最后，第三种奇异学派认为存在一个测试数据库（包含远多于一张图像），并且该数据库在学习过程中是可用的（无标签）。这一场景可被归为一种离线场景，其中从博弈论的角度来看，最后一位参与者是隐写分析器，因为在该离线场景中，隐写分析器扮演着更偏向取证的角色。在这种情况下，存在领域自适应类型的方法，或特征迁移GTCA[61], IMFA[62], CFT[63],其思想是定义一个不变潜在空间。另一种方法是ATS[64],该方法仅使用测试数据库进行无监督分类，并要求嵌入算法在测试数据库的图像中重新嵌入有效载荷。

这三种思想流派有助于推导出结合本文所述理念的卷积神经网络方法。也就是说，最终的解决方案可能是检测不匹配现象并发出警报或禁止决策[65]。简而言之，是整合一种比整体性或原子性更智能的机制。

14.4 基于深度学习的隐写术

在西蒙斯的奠基性论文[66]中，隐写术和隐写分析被定义为一种三人博弈。隐写者通常被称为爱丽丝和鲍勃，他们希望在不被第三方怀疑的情况下交换消息。他们必须使用一种无害的媒介，例如图像，并将消息隐藏在这种媒介中。隐写分析者通常称为伊芙，她观察爱丽丝和鲍勃之间的通信。伊芙必须判断这些图像是自然的载体图像，还是隐藏了消息的隐写图像。

这种爱丽丝、鲍勃和伊芙之间的game概念与博弈论中的概念相对应。每个参与者都试图找到一种策略，以最大化自己获胜的机会。为此，我们将问题表述为一个需要优化的极小‐极大问题。如果存在最优解，则称之为纳什均衡解。当所有参与者都采用纳什均衡策略时，任一参与者的策略改变都会引发其他参与者的反击，从而使他们增加自身的收益。

2012年，朔特勒和伯姆[67,68]在简化假设下对隐写术与隐写分析问题进行了建模，并提出了一个形式化解。朔特勒和伯姆将该方法称为最优自适应隐写术或策略性自适应隐写术，以区别于所谓的朴素自适应隐写术，后者对应当前在HUGO（2010）[69]、WOW（2012）[70]、S‐UNIWARD / J‐UNIWARD / SI‐UNIWARD（2013）[42]、HILL（2014）[43]、MiPOD（2016）[71]、Synch‐Hill（2015）[72]、UED（2012）[73]、IUERD（2016）[74]、IUERD-UpDist-Dejoin2（2018）[75]等算法中使用的方法。

通过博弈论对隐写术/隐写分析问题进行数学形式化是困难的，且通常在现实中远离实际应用。另一种确定纳什均衡的方法是“模拟”该博弈。从实际角度来看，爱丽丝独自进行整个博弈，这意味着她不会与鲍勃或伊芙交互来构建她的嵌入算法。其思想是，她使用三种算法（在简化版本中为两种算法），我们将其称为agents。每个agent分别扮演爱丽丝、鲍勃、8和伊芙的角色，且各自

8 鲍勃在简化版本中被删除了。

336 数字媒体隐写术

代理在爱丽丝家中运行。注意这三个在爱丽丝家中运行的算法：Agent-Alice、Agent-Bob和Agent-Eve。通过这些表示，我们将其与人类用户区分开来：爱丽丝（发送者）、鲍勃（接收者）和伊芙（监视者），并且这使我们能够强调这三个代理均在爱丽丝一侧执行。

因此，代理‐爱丽丝的作用是将消息嵌入图像中，使得生成的隐写图像无法被代理‐伊芙检测到，并且代理‐鲍勃能够从中提取出消息。

爱丽丝可以启动游戏，也就是仿真过程，各个代理开始“对抗”。9一旦各代理达到纳什均衡，爱丽丝便停止仿真，并保留代理‐爱丽丝，即她的策略自适应嵌入算法，同时将代理‐鲍勃（即提取算法，或任何等效信息）发送给鲍勃。10现在，爱丽丝与鲍勃之间的秘密通信可以通过使用代理‐爱丽丝算法进行嵌入和代理‐鲍勃算法进行提取得以实现。

最早的先驱方法旨在模拟一种策略自适应均衡，从而在2011年和2012年提出了策略嵌入算法。这两种方法分别是MOD[76]和ASO[7,77]，如图14.11所示。无论是MOD还是ASO，该博弈都是通过让代理‐爱丽丝与代理‐伊芙相互对抗而构成的。在此博弈中，并未使用代理‐鲍勃，因为代理‐爱丽丝仅生成一张代价图，随后借助STC[78]对该消息进行编码和嵌入。爱丽丝可以使用代理‐爱丽丝为原始图像生成代价图，然后她便可轻松使用STC[78]算法将其消息嵌入并获得隐写图像。而鲍勃只需使用STC[78]算法从隐写图像中提取消息即可。

示意图10

9 读者应注意，从博弈论的角度来看，只有两个对立的团队在进行竞争t-in（一方是代理‐爱丽丝和代理‐鲍勃，另一方是代理‐伊芙），这构成了一种零和博弈。
请注意，在爱丽丝和鲍勃使用代理‐爱丽丝与代理‐鲍勃之前，任何秘密信息的交换都需要使用另一个隐写通道。
同时请注意，爱丽丝在能够使用代理‐爱丽丝和代理‐鲍勃之前向鲍勃的初始发送等同于经典的隐写密钥交换问题。

在MOD或ASO中，“模拟”是指重复执行以下两个操作，直到满足停止条件为止：

i) 代理‐爱丽丝通过询问Oracle（代理‐伊芙）如何最佳地更新每个嵌入成本，以使其更难以被检测，从而更新其嵌入代价图。

在MOD（2011）中[76]代理‐伊芙是一个支持向量机。代理‐爱丽丝通过减小区分载体和隐写之间的支持向量机边距来更新其嵌入成本。在ASO（2012）中[7]代理‐伊芙是一个EC[5]并被称为Oracle。代理‐爱丽丝通过将隐写转换为载体来更新嵌入成本。

在这两种情况下，其思想是寻找潜在空间（特征空间）中与分离载体类和隐写类的超平面正交轴共线的位移。需要注意的是，根据伊恩·古德费洛在2014年[79]提出的当前术语，代理‐爱丽丝发起对抗攻击，而Oracle（代理‐伊芙），即判别器（或被欺骗的分类器），必须学习以抵御这种攻击。

ii) Oracle（代理‐伊芙）更新其分类器。用机器学习的术语重新表述，这相当于通过重新学习来对代理‐爱丽丝生成的隐写图像再次进行隐写分析，即判别更新。

2014年，古德费洛等人[79]使用神经网络“模拟”了一个游戏，该游戏包含一个图像生成网络和一个判别网络，后者的作用是判断一幅图像是真实的还是合成的。作者将这种方法命名为生成对抗网络（GAN方法）。本文所使用的术语随后被广泛采用。此外，使用神经网络使得极小‐极大问题的表达更加简单。然后通过反向传播优化过程进行优化。此外，得益于深度学习库，现在构建一个GAN型系统变得非常容易。正如我们之前已经提到的，博弈模拟的概念在隐写/隐写分析中早已存在于MOD[76]和ASO[7]中，但使用神经网络使其实现和优化变得更加简便。

从2017年开始，在经历了五年的停滞期后，由于深度学习和GAN方法的出现，模拟游戏的概念再次在隐写术/隐写分析领域得到研究。到2018年底，我们可以定义出四个组或四个家族11的方法，其中一些可能会合并。

合成族；
修改概率图生成族；
通过对抗性嵌入的类别 iterated（误导判别器的方法）；
三人博弈族。

11 “深度学习在隐写术和隐写分析中的应用（自2015年起）”，在2018年10月30日于法国IRISA/Inria雷恩举行的“图像信号与安全微型研讨会”上所做的教程，DOI: 10.13140/RG.2.2.25683.22567, http://www.lirmm.fr/~chaumont/publications。查看幻灯片（http://www.lirmm.fr/~chaumont/publications/Deep_Learning_in_Steganography_and_Steganalysis_since_2015_Tutorial_Meeting-France-CHAUMONT_30_10_2018.pdf）和演讲视频（https://videos-rennes.inria.fr/video/H1YrIaFTQ）。

338 数字媒体隐写术

14.4.1 基于合成的家族

基于图像合成通过GAN[79]生成器的首批方法提出了先生成载体图像，然后通过对图像进行修改来嵌入消息。这些早期的方案是通过修改的方案。提出此类方法的理由是，所生成的数据库会更安全。一个常被引用的参考是SGAN[80]，该论文发表在ArXiv上，但在ICLR’2017被拒，之后从未正式发表。这篇未发表的论文存在大量错误且缺乏证明。我们更应优先参考SSGAN[81]，该论文发表于2017年9月，提出了同样的思路：先生成图像，然后再在其中隐藏消息。然而，这种协议似乎使问题复杂化了。更合理的做法是爱丽丝自己选择适合嵌入的安全自然图像，即无害、此前从未公开传播过、符合上下文环境、具有大量噪声或纹理[82]且不易被分类器正确分类[77]或具有较小偏转系数的图像[71]，而不是先生成图像再用其隐藏消息。

一种更有趣的方法是利用合成直接生成将被视为隐写图像的图像。据我所知，第一种利用生成对抗网络机制、基于隐写术原理且无需进行修改来合成图像的方法无需修改[83]是在 Hue 等人的论文中提出的[84]并于2018年7月发表；见图14.12。

第一步是构建一个能够合成图像的网络。在本文中，利用GAN方法进行初步学习后，使用DCGAN生成器[85]来合成图像。当输入一个在[−1,1]中均匀分布的固定大小向量时，该生成器会合成一幅图像。第二步是学习另一个网络从合成图像中提取向量；提取出的向量必须对应于生成该图像时生成器输入端的向量。最后一步是将提取网络发送给鲍勃。现在爱丽丝可以将一条消息映射到一个固定大小且均匀分布的向量，然后用该向量合成图像并发送给鲍勃。鲍勃可以提取该向量并恢复对应的消息。

多年来，no modifications 的方法一直存在，众所周知，其中一个问题是与进行修改的方法相比，可传输的比特数较少。尽管如此，通过modifications与采用no-modifications的方法之间的差距正在逐渐缩小。

以下是对此方法效率的快速分析。在Hu等人发表的论文中[84]，图像的容量约为每像素比特（bpp）0.018 bits per pixel (bpp)，图像大小为64×64像素。12实验中使用的合成图像要么是人脸，要么是食物照片。像HILL这样的算法[43]（在BOSS数据库上最强大的算法之一[82]）可被SRNet[13]（截至2018年底最成功的隐写分析方法之一）以错误概率Pe = 31.3%检测出（注意，50%的Pe相当于随机检测器），测试所用数据集为载荷大小0.1 bpp的256×256像素BOSS数据库。根据平方根定律，对于64×64像素BOSS数据库，Pe将更高。

因此，胡等人提出的未修改合成方法的容量约为0.02 bpp[84]，其安全性尚未得到充分评估，而HILL方法的容量约为0.1 bpp，在使用clairvoyant隐写分析（即实验室环境下的隐写分析，比“现实世界”/“野外”隐写分析[14,54]更理想化且效率更高）时被检测到的概率不到三分之一。因此，在基于合成且无需修改的方法（例如胡等人的方法[84]）与需要修改的方法（例如S‐UNIWARD[42]、HILL[43]、MiPod[71]，甚至Synch‐Hill[72]）之间，传输比特数方面仍存在差距，但这一差距已经缩小13。此外，还需注意的是，要确保胡等人提出的方法完全安全，仍有一些问题需要解决。特别是必须确保合成图像的检测[86]不会长期影响通信信道的安全性。还必须确保缺少密钥不会危及该方法的安全性。事实上，如果认为生成器是公开的，那么是否有可能利用这一信息推断出使用了无需修改的合成方法？

14.4.2 修改概率图生成族

修改概率图的类别在2010年代末的两篇论文中进行了总结：ASDL‐GAN[87]和UT‐6HPF‐GAN[88]；见图14.13。在此应用—

该方法包含一个生成器网络和一个判别器网络。生成器网络从载体生成一张图，称为修改概率图。该修改概率图随后传递给STC[78]模拟器中使用的随机抽取函数的等效模块。我们得到一张取值属于{−1,0,+1}的图。这张图称为修改图，对应所谓的隐写噪声。判别器网络的输入为载体或由载体与生成器产生的隐写噪声进行逐点求和后得到的图像。判别器的目标是区分载体与“载体+隐写噪声”图像。生成器的目标是生成一张能够最大程度欺骗判别器的修改图。当然，为了迫使生成器生成非零概率图，其损失函数中除了包含欺骗判别器的项之外，还加入了一项用于约束有效载荷大小的项。

实际上，以最新的方法UT‐6HPF‐GAN[88]为例，生成器采用U‐Net类型网络，映射函数通过可微函数双Tanh获得，而判别器则是在Xu‐Net[10]基础上，以与Ye‐Net[11]或Yedroudj‐Net[8]相同的思路在预处理阶段增加了六个高通滤波器。

该系统首先在一个数据库上进行学习，然后在256×256像素BOSS[15], LIRMMBase[21],和BOWS2[16]数据库上进行安全性比较。隐写分析采用EC[5]结合SRM[4]、EC加上MaxSRM[29],以及Xu‐Net[10]来进行。需要注意的是，使用Xu‐Net并不是一个理想的选择，因为它相较于EC+SRM或EC+MaxSRM效率更低，而且它还是UT‐6HPF‐GAN中的判别器（存在陷入“不完整性”问题的风险；见[89,90]）。因此，仅考虑BOSS数据库上采用EC+SRM且使用STC[78]进行真实嵌入的结果，其性能为相当于HILL[43]是BOSS上最高效的嵌入算法之一[82]。因此，这是一个非常有前景的类别。此外，当在不同于训练数据库的数据库上使用时，生成器似乎并未受到影响。然而，当目标载荷发生变化时，必须使用课程学习，这似乎表明对不匹配具有一定敏感性。关于生成器损失以及与安全相关的项和载荷大小项的混合，还需进一步探讨。通常，这两个准则中有一个是固定的，因此我们必须处于载荷受限发送者场景或安全性受限发送者场景之一。请注意，针对JPEG的版本已在IH&MMSec’2019中提出，即JS‐GAN[91]。