数字媒体隐写分析技术综述

最新推荐文章于 2025-11-24 19:11:26 发布

原创最新推荐文章于 2025-11-24 19:11:26 发布 · 856 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#隐写分析 #深度学习 #图像处理 #音频分析 #文本检测

12 数字媒体隐写分析

Reinel Tabares-Sotoa，Raúl Ramos‐Pollánc，Gustavo Isazad， Simon Orozco‐Ariasb,d，Mario Alejandro Bravo Ortíza， HaroldBrayan Arteaga Arteagaa，Alejandro Mora Rubioa， Jesus AlejandroAlzate Grisalesa
a马尼萨莱斯自治大学，电子与自动化系，马尼萨莱斯，卡尔达斯，哥伦比亚 b马尼萨莱斯自治大学，计算机科学系，马尼萨莱斯，卡尔达斯，哥伦比亚 c安蒂奥基亚大学，系统工程系，麦德林，安蒂奥基亚，哥伦比亚 d卡尔达斯大学，系统与信息学系，马尼萨莱斯，卡尔达斯，哥伦比亚

12.1 引言

隐写术的首次出现可以追溯到古希腊。故事描述了希罗多德如何向斯巴达发送一条消息，以警告薛西斯意图入侵希腊。该消息被隐藏起来传送，使其在检查时难以察觉。为了伪装消息，信息被直接写在木板上，然后用蜡覆盖，并在其上书写一条普通信息。乍一看只能看到普通信息，但一旦将其去除，木板上的隐藏信息就会显露出来。在第二次世界大战期间，最常见的隐写术技术是将消息拍摄成缩微胶片，并缩小至一个小点的大小，使其看起来像是文本中的一个标点符号或字符上的圆点。例如，元音字母（i）上的点可能就是携带消息 [1] 的缩微胶片。这种技术为传统的隐藏信息方法（如密码学）提供了替代方案，而密码学在某些国家是被禁止的 [2]。隐写术的概念源于著名的囚徒问题，该问题在 [3] 中进行了说明。这个问题描述了两名囚犯爱丽丝和鲍勃，他们希望在监狱长伊芙的持续监视下交换消息。如果伊芙认为这些消息可疑，她就不会允许消息送达接收者。

工业隐写术已被用于控制数字资料的非法复制；为此，版权机构引入包含材料所有者信息或材料已出售或发送给谁的证据信息。这是通过以人眼无法察觉的方式修改数字内容来实现的[4]。在军事层面，隐写术被用于传输重要消息，而不会引起对方的注意。人们还认为，非法组织和恐怖分子可能使用隐写术传递有关攻击或目标的信息[4]。

示意图0

图12.1 隐写过程。在最低有效位（LSB）中嵌入消息的示例。

隐写术可以在多个域中进行：空间域、频域、压缩域和文件结构域。特别是，后两个域可能容易被检测到。因此，隐写术的主要研究重点是空间域和频域。在空间域中，算法直接修改数字媒体的某些信息，使人眼无法察觉。实现这一目标的一种方法是通过顺序或随机更改数据样本的最低有效位（LSB）来嵌入消息[5,6]。图12.1说明了通用的隐写过程，该过程从一个干净的数字媒体文件（载体文本）开始，例如一幅图像。然后使用隐写算法通过更改某些比特将消息嵌入该文件中。经过此过程后，获得了一个包含隐藏消息且没有明显视觉变化的新文件（含密图像）。在图像隐写术中，该领域最常用的算法是HUGO[7],HILL[8], MiPOD[9],S-UNIWARD[10],和WOW[11]。这些算法具有不同的载荷；通常，实验中最常用的载荷为0.4每像素比特数（bpp）。

从频域来看，常用的变换包括离散余弦变换（DCT）、离散小波变换（DWT）和奇异值分解（SVD）；这些内容在[12]中有详细说明。通过这些变换生成的系数会被修改，以在频域中嵌入消息，且对人眼而言不可察觉。在此领域中用于图像的最常用算法是 J‐UNIWARD[10], F5[13], UED [14],和UERD [15]。这些算法通常使用的载荷为0.4 bpnzAC（每个非零载体交流DCT系数的比特数）。

隐写分析面临与数字媒体中隐藏信息相关的不同任务，包括预测引入消息所用的载荷、预测所使用的隐写算法，以及对含有或不含消息的文件进行分类；其中最后一项更为重要且发展更广泛。目前有两种常用方法来解决数字媒体文件（载体文本含密图像）中是否存在隐藏消息的分类任务。第一种方法使用机器学习（ML），其中需要手动提取特征。

示意图1

图12.2 隐写分析过程。基于机器学习（上部分）和深度学习技术（下部分）的隐写分析。

特征提取完成后，接着使用传统分类器进行独立的处理。第二种方法涉及深度学习（DL），其中利用卷积层或循环层自动进行特征提取；然后使用全连接神经网络进行分类。这两个过程均以端到端的方式执行。图12.2展示了这两种隐写分析方法，其中分类在特征提取阶段之后进行[16]。

本章旨在按以下顺序解释应用于数字媒体的最新且最相关的隐写分析技术：第12.1节提供引言，第12.2、12.3、12.4和12.5节分别介绍图像、音频、视频和文本的隐写分析。第 12.6节包含本章的结论。

12.2 图像隐写分析

图像隐写分析的研究始于20世纪90年代末，当时约翰逊和贾约迪亚[17]以及钱德拉穆利等人[18]进行了最早的研究所。隐写分析经历了不同的阶段，从最初的视觉检测发展到使用卷积神经网络（CNNs）。从一开始，它就被分为两个领域：空间域和频率域。在空间域中，采用随机或自适应的最低有效位插入法[19,6]。对于频率域（JPEG，联合图像专家小组），隐写术需要借助DCT、DWT和SVD等变换。接下来的章节12.2.1和12.2.2涉及传统图像隐写分析技术，这些技术包括视觉分析或手工设计特征。第12.2.3节则涵盖现代隐写分析的相关内容，其中使用不同的算法和计算模型来提取特征并实现自动分类。

12.2.1 签名隐写分析

签名识别是用于检测包含隐藏信息图像的最早方法之一。其目标是搜索重复模式以识别隐写工具的签名。例如，在[17]中，作者发现“隐藏与寻找”隐写算法使图像中的所有像素值都能被4整除。当隐写算法当算法应用于0到255范围内的RGB图像时，会生成具有相同特征的图像。然而，颜色范围从0到 252变化。这种类型的特征在图像直方图中可被视觉识别，因为最白的颜色始终为252。

12.2.2 统计隐写分析

统计隐写分析比签名隐写分析更可靠，因为数学分析比视觉分析更准确。图像可以被视为矩阵；因此可以从其中获取统计信息。相应地，如果矩阵或图像发生修改，则会产生统计变化。统计隐写分析可分为以下几类。

LSB嵌入隐写分析 ： LSB隐写术 [20]其原理是将消息嵌入到数字图像的最低有效位中。关于LSB嵌入隐写分析的最早论文之一由智等人发表，[21],他们提出了一种基于梯度能量损失的检测方法。嵌入消息长度与梯度能量之间的关系可用于将图像分类为载体与隐写。首先计算载体图像梯度的能量，然后在不同嵌入率下计算隐写图像梯度的能量。随后绘制隐写梯度能量曲线，并估计隐写消息的长度。弗里德里希等人提出了另一种方法，[22],该方法选择显示突变颜色的像素；例如，如果存在从位1到位2的颜色递减，则将这些值分组为(1,2)。所有颜色维度被排序、连接，并评估它们之间的同质性。弗里德里希证明，同质性是秘密消息长度的二次函数，在8位GIF图像中获得最佳结果。阿夫奇巴西斯等人[23]创建了一种专门用于检测LSB的算法，该算法基于位平面内二进制相似性和二进制纹理特征的计算。基于上述特征，构建了一个相似性度量分类器，根据两幅图像之间相似性方差将图像分类为载体或含密图像。这项研究表明，当时的隐写算法会改变图像的纹理。因此，阿夫奇巴西斯开展了新的研究，从共生矩阵出发对图像纹理进行评估。
LSB匹配隐写分析 ：基于LSB匹配的隐写术[24]比LSB嵌入隐写术[20]更难检测。在 LSB匹配隐写分析领域中，一项最重要的研究是[25]。作者针对灰度图像，应用直方图特征函数（HCF），并通过欠采样图像而非传统直方图来校准质心（COM）。该研究的根本问题在于引入消息长度，因为该算法仅在嵌入消息长度小于图像像素数时才有效。另一个问题是能否确定颜色尺度中是否存在隐藏消息。为解决此问题，刘等人[26]提出了一种基于像素相关特征和模式识别的技术。统计模式识别
扩频隐写分析 ：插入谱隐写术通过将图像与高斯噪声结合来添加信息 [27]。由于其特性，此类隐写术具有较强的鲁棒性且检测概率较低。尽管检测较为困难，但已有研究在 [28]中通过探究HCF质心的特性提出了检测方法，其中HCF质心作为主要特征。利用HCF可进行隐匿噪声分析，从而基于直方图分析嵌入消息的影响。该研究中使用了一个简单的贝叶斯多元分类器 [29]。另一种基于离散余弦变换（DCT）的检测方法在 [30]中有描述。该方法依赖于检测每个块的色散差异。首先，使用空间滤波器恢复隐写图像；然后多次模拟扩频过程，并从DCT的低频系数和载体图像中估计方差。据此，利用两种色散之间的差异来判断图像是否包含隐藏消息。另一种用于扩频隐写分析的方法旨在寻找像素间的相关性。该方法由 Sullivan等人 [31],提出，他们使用随机马尔可夫串计算像素间的相关性，并采用支持向量机（乔希姆 [32]）作为分类器。该分类器使用隐写图像和载体图像进行训练，取得了出色的结果。
变换域隐写分析 ：小波量化调制隐写分析 [33]由刘等人 [34]提出。在直方图分析中，载体图像的直方图比隐写图像更平滑。作者证明了采用量化调制方法的隐写图像的能量差远高于载体图像，因此可以判断图像是否为隐写图像。隐写分析领域最显著的进展之一发生在[35],，当时使用神经网络进行隐写分析。数字图像（包括载体与隐写）在DFT（离散傅里叶变换）、 DCT和DWT等变换域中进行分析，随后神经网络计算载体图像和隐写图像的统计特征。该方法在当时表现出良好的分类准确率。
加性噪声隐写分析 ：加性噪声隐写术 [36]依赖于生成的噪声以降低检测到嵌入消息的概率。为了对抗加性噪声隐写术，江等人 [37]提出了一种针对二值图像的隐写分析技术。该方法的成功取决于压缩率和数据插入率。它将隐写插入建模为一个加性噪声过程；压缩指数被用作主要统计量，有助于区分含密图像与载体图像，因为当消息被嵌入后，数据压缩率会增加。

基于上述内容，我们描述了隐写图像分类中最具代表性的百分比。对于LSB嵌入隐写分析[23],，研究表明，在1 bpp下嵌入一条5000个词的消息会产生78.23%的准确率。对于 LSB匹配隐写分析[24],，嵌入一条 64×64比特的消息会产生以下准确率： 43%。扩频隐写分析[30]的准确率为 90%，而变换域隐写分析[35]的准确率为85%。需要注意的是，当时的隐写算法比当前存在的算法要弱。在[38,39],中已证明，使用机器学习技术的统计隐写分析算法对近年来的隐写技术并不高效。因此，目前采用深度学习方法。

12.2.3 深度学习在数字图像隐写分析中的应用

卷积神经网络（CNNs）的不同架构的设计与实现被认为是深度学习在隐写分析领域的主要贡献。CNN架构是在先前神经网络研究的基础上逐步发展而来的。所提出的CNN按时间顺序可列举如下：Qian-Net或GNCNN[40], Xu-Net[41],Ye-Net[42],Yedroudj-Net[43], SRNet[44],和Zhu-Net[45]。该领域的早期研究包括使用自编码器堆叠的无监督学习实现。随后，多项研究在有监督学习方面取得了进展，并遵循隐写分析的三个基本原则：i）利用固定的高通滤波器增强隐写噪声，ii）特征提取，iii）分类。所提出的架构将这些原则统一为单一框架，以同时优化其参数。另一方面，相关研究首先在空间域展开，随后扩展到频率域（JPEG）。在JPEG域中，隐写分析可在 512× 512或 256× 256的尺寸下进行，具体取决于可用硬件。该分析可用于灰度或彩色图像，主要针对质量因子（QF）为100、95、90、85、 80和75的情况。

研究人员已提出对卷积神经网络的多种改进以提升性能，例如增加网络深度或使用全连接网络[46]；使用自定义激活特征以确保网络收敛并提高隐写图像检测率[40,42,43]；在卷积层之间引入跳跃连接的卷积神经网络（残差网络或密集网络）来设计非常深的网络（20层或更多），实现网络收敛并提高检测率[47,44,48–52]；利用卷积神经网络的训练集并将学习到的参数迁移到具有复杂收敛性或低检测率的卷积神经网络中[53–55]；使用给定数据库训练卷积神经网络，并用完全不同的数据库进行测试，以确定所设计卷积神经网络的可靠性（载体源不匹配）[46,54]；通过绝对值层（ABS）加强统计建模[41,43,45,53]；利用SRM中设计的滤波器改进隐写噪声提取，并使用卷积神经网络进行特征提取与分类[56,42,43,45]；使用真实世界数据库（如ImageNet）来确定卷积神经网络能否适应具有不同分辨率和采集特性的任意数据集[56,40,47,44,48,49]；让两个相互竞争的CNN协同工作，其中一个用于隐写，另一个用于隐写分析，从而因两个过程的特征学习而实现自动隐写过程[57–64]；训练网络以区分高分辨率图像与低分辨率图像[65]；在空间和JPEG域中利用深度学习预测隐写图像的载荷（定量隐写分析）[66,67]；通过考虑裁剪、旋转和插值操作，以及使用具有相似或不同特性的相机进行图像采集，从而增加数据库规模，

图12.3 卷积神经网络架构在数字图像隐写分析中的应用。最常用的CNN架构。框内的数据结构如下：卷积核数量 ×（高度 × 宽度 × 输入的特征图数量）。框外的数据结构如下：特征图数量 ×（高度 × 宽度）。如果未指定步长或填充，则默认为步长=1和填充=0。基于 [16]。

注意调整大小的问题 [56,42,68,45]；部署三个卷积神经网络并行工作 [69]每个网络在预处理层中采用不同的激活函数（ReLU、S形函数和双曲正切）以及受加博滤波器启发的不同滤波器 [70] 和SRM（线性和非线性） [71]；最后，对彩色图像执行类似的并行处理 [72],等等。

公式（12.1）中所示的高通滤波器被所提出的网络广泛使用，尽管其参数在训练过程中并未进行优化。该滤波器由[71],开发，并由[40]首次将其用于隐写分析。由于高通滤波器能够对图像进行预处理以增强隐写噪声，因此可以减小图像内容的影响。此外，该滤波器有助于卷积神经网络的训练过程收敛。然而，并非所有网络都使用此滤波器；例如，SRNet 能够自动学习所有参数，而无需依赖启发式方法。

$$
K= \frac{1}{12} \begin{pmatrix}
-1 & 2 & -2 & 2 & -1 \
2 & -6 & 8 & -6 & 2 \
-2 & 8 & -12 & 8 & -2 \
2 & -6 & 8 & -6 & 2 \
-1 & 2 & -2 & 2 & -1
\end{pmatrix}.
\quad (12.1)
$$

卷积神经网络的通用流程如公式(12.2)所示，其中 $M_l$是第 $l$层的各个特征图， $M_i^{l-1}$是第 $i$ 层前一层的特征图， $K_i^l$是第 $l$层的第 $K_i^l$个卷积核，$b_l$是第 $l$层的偏置参数， $*$表示卷积操作， $f$为称为激活函数的非线性操作， $pool$表示池化操作，$norm$表示归一化操作。卷积层中的操作按以下顺序执行：卷积、归一化、激活函数和池化。最后一层得到的特征图作为分类模块的输入，该分类模块由一层或多层全连接神经元和Softmax层组成。最后一个全连接层旨在将卷积神经网络的值归一化到[0,1],之间，分别对应图像为载体文本或含密图像的概率。

$$
M_l = pool(f(norm( \sum_{i=1}^{n}(M_i^{l-1} * K_i^l) + b_l))).
\quad (12.2)
$$

在大多数卷积神经网络中，最常用的非线性激活函数包括：i) 线性整流单元（ReLU）[73], ii) 双曲正切（TanH）[74], iii) 高斯函数，以及 iv) 截断线性单元（TLU）[75]。最后一种是深度学习应用于隐写分析所特有的，它限制了数值的范围；因此，网络不会对较大数值进行模。通常，TanH用于前几层，而 ReLU用于最后几层。

用于数据归一化的操作是批归一化(BN)，其总结见公式(12.3)[76]。批归一化(BN)通过首先将特征图中每个特征的分布归一化为零均值和单位方差来工作，如有需要，还可对分布进行重新缩放和重新平移。

$$
BN(x, \gamma, \beta) = \beta + \gamma \frac{x - E[X]}{\sqrt{Var[X] + \varepsilon}}
\quad (12.3)
$$

其中 $E[X]$为期望， $Var[X]$为方差， $\gamma$和 $\beta$为表示重新缩放和重新平移的两个标量。期望 $E[X]$和方差 $Var[X]$在每个批次中更新，而 $\gamma$和 $\beta$通过反向传播学习。实际上，批归一化使学习对初始参数的敏感性降低[76]，从而允许使用更高的学习率，加快学习过程并提高分类准确率[54]。在最初提出的卷积神经网络中未使用批归一化。

隐写噪声嵌入在隐写图像中通常非常微弱；因此在卷积神经网络中经常使用平均池化 [77]，因为该操作有利于此类噪声的传播和保留，而最大池化[77]无法实现这一点。另一方面，最常见的池化策略是与其邻居一起计算的局部操作。

隐写分析研究人员报告的最常见性能指标是分类准确率 [78], 或其补数，即错误率。准确率通过给定数据集中的正确预测总数来计算。分类准确率由以下公式提供

$$
Acc = \frac{# \text{ Correct Predictions}}{# \text{ Total Predictions}} \cdot 100\%.
\quad (12.4)
$$

另一方面，错误率通过 $Er = 100\% - Acc$计算得出。这些是用于确定模型性能的简单指标，在本例中即隐写分析方案的性能。然而，鉴于这是一个类别始终平衡（载体文本–含密图像对）的二分类任务，这些指标已具有足够的代表性，足以支持模型改进的决策。

表12.1 两种隐写算法在不同架构下的错误率。两种隐写算法在载荷为 0.4 bpp和0.2 bpp时，卷积神经网络和富集残差模型的错误率。

算法	WOW 0.2 bpp	WOW 0.4 bpp	S‐UNIWARD 0.2 bpp	S‐UNIWARD 0.4 bpp
富集残差模型+EC (2012)	36.5	25.5	36.6	24.7
钱氏网络 (2015)	38.6	29.3	46.3	30.9
徐网络（2016）	32.4	20.7	39.1	27.2
Ye‐Net (2017)	33.1	23.2	40.0	31.2
Yedroudj‐Net (2018)	27.8	14.1	36.7	22.8
SRNet (2018)	24.6	13.1	32.6	18.4
Zhu‐Net (2019)	23.3	11.8	28.5	15.3

SRNet[44]在JPEG域中表现最佳，因为它减少了其他网络为捕捉隐写噪声而采用的手动设备和启发式方法的使用；该网络在空间域和频域中运行。然而，在空间域中， Zhu-Net[79]取得了最好的结果。该网络的特点是使用受SRM启发的滤波器组来初始化预处理层权重，这些权重将在训练过程中被优化，以增强隐写过程引入的噪声并抑制图像内容。 Zhu-Net使用独立卷积来改进特征提取过程，并采用多级平均池化（即空间金字塔池化， SPP）[80]，使网络能够分析任意尺寸的图像。表12.1显示了所描述的卷积神经网络和 SRM+EC检测两种空间域隐写算法（S‐UNIWARD和WOW）在载荷为0.4 bpp和0.2bpp时的错误率。

大多数已报道的架构（图 12.3）采用先知场景 [46],，其描述如下：

隐写分析者知道用于执行消息嵌入的算法。
隐写分析者对隐写者所使用的图像数据库具有良好的统计知识分布。
嵌入过程的消息载荷是已知的。
始终使用相同的图像尺寸。
隐写分析者可以访问隐写者使用的一组载体‐隐写图像。

使用包含10,000幅图像的BOSSBase数据库，尺寸为 512 × 512或 256 × 256，具体取决于可用硬件。在BOSSBase中，通过一些现有的隐写算法（含密图像）嵌入消息，构建了另外10,000幅图像，使得整个数据集包含10,000对图像（封面图像–含密图像）。从该数据集中随机选取5000对图像（封面图像–含密图像），其中4000对用于卷积神经网络的训练，1000对用于验证；剩余的5000对图像用于卷积神经网络的评估。滤波器权重的初始化通过Xavier方法[81]完成。

在此场景下进行的实验通常使用BOSSBase V1.01数据库[82,83],，其中包含 10,000幅大小为512× 512、8 位深度的便携式灰度图格式（PGM）图像。第二常用的数据库是 BOWS2[84],，它包含 10,000幅8位深度、大小为8位、尺寸为512x512的PGM格式图像。此外，大规模的ImageNet[85]数据库也常被使用，该数据库包含超过1400万张不同尺寸的图像。ImageNet数据库通常用于在频率域（JPEG）中进行的实验。在某些实验中，由于研究团队的计算代价和内存限制，前述数据库被调整大小或裁剪至256× 256。

在完成此图像隐写分析概述并描述当前的深度学习方法后，我们将分享一些改进 Ye‐Net 的有用思路。Ye 等人 [42]于 2017年 6 月提出了该架构（图12.3）。通过应用下文讨论的想法，实现了收敛性和分类准确率的提升。

改进的Ye‐Net ：对Ye‐Net的改进使得能够生成更优且更精确的Ye‐Net架构。其中一个关键步骤是将其从原始的Caffe框架迁移到TensorFlow和Keras中进行开发，这使得隐写分析领域的研究人员能更方便地使用深度学习的新工具。我们复现了[43,16]中报告的结果，并使用S‐UNIWARD在0.4bpp下进行了多项实验。其各层的改进如下所示。
激活函数 ：原始网络在第一层使用TLU激活函数。我们使用该函数以及ReLU和双曲正切进行了测试。最佳结果是通过将双曲正切激活函数乘以3并将第一层设置为不可训练实现的。这是因为TLU和双曲正切具有相似的形状，而后者表现出更平滑的曲线。使用 ReLU函数的结果不显著。
批归一化层 ：原始网络未使用BN层。批归一化能够实现更快且更高效的收敛。为此，我们在每个卷积层之后添加了此类层。
优化器 ：在优化器或优化算法方面，Ye‐Net 采用 AdaDelta 优化器设计。我们测试了 Keras 库提供的不同优化算法，使用 RMSprop 优化器时取得了最佳结果。
全连接层优化 ：数据在经过全局平均池化层后输入；网络未使用常见的展平操作。最初，我们采用了Yedroudj‐Net中的256和1024个神经元的全连接层，虽然收敛较快，但准确率并未更好，且损失更大。我们构建了自己的全连接层网络（128、64、32个神经元），并使用了ReLU激活函数。在前两个全连接层中，我们也应用了dropout（值为= 0.2）。

所提出的改进架构在S‐UNIWARD (0.4 bpp)隐写算法上的准确率超过78%。该结果优于原始的Ye‐Net (2017)（68.8%）和Yedroudj‐Net (2018)（77.2%），但低于SR‐Net (2018)（81.96%）和Zhu‐Net (2019)（84.7%）。这些结果基于[16,43]。我们在仅12个训练周期内就超越了Yedroudj‐Net。对该网络及其他网络的改进将很快发布。

12.2.4 总结与展望

关于隐写分析研究人员的资源和材料，卷积神经网络的实现使用了Cuda‐convnet [86], Caffe[87],和TensorFlow [88],这些框架使研究人员能够快速且灵活地创建卷积神经网络。在专门的隐写分析工作方面，宾汉姆顿大学网站上提供了大量工具[89,90],例如用于隐写术和隐写分析的算法（包括空间域和频域）、传统隐写分析器、深度学习技术的应用、用于实验的数字图像数据库以及多篇出版物。在法国蒙彼利埃信息学、机器人学和微电子实验室（LIRMM）的网站上[91],有多个应用于隐写分析的深度学习项目，其中的算法可供下载。

在本节中，我们讨论了隐写分析在数字图像中的应用以及若干实验的结果。我们提出以下可能性作为未来的工作方向：

生成新的卷积神经网络，以统一现有网络的优势或产生全新的架构（密集、浅层和/或深层架构），从而提高在空间域和频域中的检测率。
使用不同的数字图像数据库，例如考虑使用不同相机来进行更多实验，进一步研究载体源不匹配效应。•使用大规模数据库和更大的图像尺寸训练现有的卷积神经网络。为此，有必要在CPU和GPU集群架构下进行训练，以满足处理和内存需求。
使用给定的隐写算法训练卷积神经网络，并在另一种算法上进行测试，以研究一种算法向另一种算法的迁移程度。
生成新的卷积神经网络并设计新的计算单元，以更高效地获取隐写过程产生的噪声，改进特征表示，在空间域或频域对图像进行分类，并处理任意图像。此项任务应尽可能以最自动的方式完成。

12.3 音频隐写分析

音频隐写分析的目的是确定一个音频信号中是否包含隐藏消息。在此任务中使用的技术主要有两类：压缩域和非压缩域方法，它们指的是音频信号的格式，例如WAV（非压缩）、 MP3或AAC（压缩域）。为了更好地理解该问题，我们必须讨论用于在音频文件中隐藏消息的隐写算法及其工作原理。目前广泛采用的音频隐藏消息方法有两种：一种是通过修改文件中数据样本的最低有效位（LSB）来实现；另一种是非LSB方法，通过修改信号的不同参数来隐藏信息，例如信号的幅度或通过小波或傅里叶等频域变换获得的系数。其中一种

图12.4 校准隐写分析的框图。主要思想是将原始信号和估计载体文本中的噪声量进行比较。

LSB方法中最常见的算法是Steghide，它通过交换最低有效位的位置而非覆盖它来实现隐藏。更多信息请参见[92]另一方面，最常提到的非LSB方法包括：FreqSteg，该方法将消息隐藏在人类无法听到的最高音频信号频率中[93],以及整数小波，该方法利用隐藏消息修改信号的细节小波系数[94]。

12.3.1 方法

12.3.1.1 非压缩音频格式

传统的音频隐写分析方法依赖于复杂的手工设计特征。对于非压缩信号[95]，解决该问题主要有两种方法。校准方法通过估计原始信号，并将其与隐写信号进行比较，从而提取特征，随后将这些特征输入分类器。相比之下，非校准方法直接从信号中提取特征。大多数提取的特征属于频率域或时间域。

校准方法 ：在校准方法方面，主要思想是隐写可以被视为向音频文件添加噪声的过程。因此，隐写分析过程可能首先对收到的信号进行去噪，以估计载体文本或干净信号。将含密图像与去噪后的信号进行比较，或更具体地说，从其中一个减去另一个，从而生成给定信号中噪声或嵌入数据的代表性值。该过程的示意图如图12.4所示。

最有效的载体估计方法是基于小波的去噪[96],该方法计算小波系数，并在对变换系数应用阈值后重构信号。阈值由系数的标准差和信号长度确定[97]。在同一论文中，Özer 等人[96]在去噪后的音频信号上计算统计距离度量以提取特征。该方法基于加性噪声会影响这些度量的思路。使用这些特征并以支持向量机作为分类器，作者获得了平均88%的区分性能88%。

非校准方法 ：如前所述，对于非校准方法，从音频信号中提取的大多数特征属于频率域或时域。通常，这些特征是数据样本或变换系数的统计度量，例如均值、标准差和方差。更具区分性的特征包括：
两个连续数据样本之间的相关性。
基于随机过程（即信号）的马尔可夫特征，其中未来数据与过去数据之间不存在依赖关系。
梅尔频率倒谱系数（MFCC）在语音识别应用中被广泛使用。它们基于人耳听觉特性，通过信号的频率成分以及在梅尔刻度上的三角加权函数（滤波器组）计算得到。

MFCCs 由公式（12.5）给出，其中 S表示原始信号，FT表示傅里叶变换：

$$
MFCC = FT(\log(FT(S))).
\quad (12.5)
$$

有关用于音频隐写分析的特征的更多信息，可参见[95]。Kraetzer 等人 [98]使用了一组特征，包括从信号的不同帧或窗口计算出的统计特征。这些特征包括经验方差、协方差、熵、LSB 比例、LSB 翻转率、样本的均值和中
位数，以及描述不同频谱带变化率的梅尔频率倒谱系数。利用该特征集识别由不同隐写算法隐藏的消息，并以支持向量机作为分类器，预测率在52%到100%之间。其他应用校准方案的研究包括 Rekik 等人 [99]和刘等人 [100]。

12.3.1.2 压缩音频格式

MP3 或 AAC 等压缩音频格式广泛应用于各种音频应用和设备中。其主要特点是能够在保持高压缩率和小文件大小的同时提供高质量的音频。由于这些格式的普及，它们已成为发送隐藏信息的理想方式。因此，出现了 Mp3 隐写 [101] 和霍夫曼编码 [102] 等新的隐写算法。大多数此类隐写算法会修改在音频文件压缩过程中使用的改进的离散余弦变换 (MDCT) 系数。为了检测此类文件类型中的隐藏信息，金等人[103]使用了基于MDCT系数的马尔可夫特征。这些系数是从MP3音频信号中提取的，在低嵌入率下实现了高检测准确率。该方法的核心思想是，隐写算法会影响压缩过程中帧之间的量化步长，即使在低嵌入率的情况下也是如此。同样的思路也可应用于AAC格式的音频文件。例如，Ren等人[104]利用信号不同帧的统计特征，通过集成分类器对载体与隐写进行分类，在嵌入率高于50%时检测准确率达到 85.34%。

12.3.1.3 现代音频隐写分析

近年来，由于深度学习技术的巨大进步，音频隐写分析已开始利用这些模型，通常性能优于传统方法。使用深度学习最显著的优势在于不再需要手工特征提取。本文介绍了一些近期发表的基于深度学习模型的音频隐写分析的最新研究成果。

深度置信网络（DBN） ：深度置信网络是一种由堆叠受限玻尔兹曼机（RBM）组成的特殊前馈网络。RBM是本质上是具有两层的神经网络，一层可见，一层隐藏。在这些网络中，给定的概率分布会激活隐藏层中的神经元。RBM的示意图如图12.5所示。

图12.5 受限玻尔兹曼机（RBM）的结构示意图。受限玻尔兹曼机由两层构成，一层可见层和一层隐藏层，层间所有单元均相互连接。隐藏层中一个单元的激活由概率分布决定。

Paulin等人[105]通过堆叠多个受限玻尔兹曼机（RBM）构建了一个深度置信网络（ DBN），其中第一个可见层接收输入数据，下一个RBM则使用前一个RBM的隐藏层进行训练。他们采用梅尔频率倒谱系数（MFCCs）作为特征，并以DBN作为分类器来完成两个不同的任务：第一个任务是判断信号中是否含有隐藏消息，第二个任务是识别用于嵌入数据的隐写算法。他们将所提出的DBN架构与支持向量机（SVM）和高斯混合模型（GMM）进行了比较，结果发现，在第一个任务中SVM总体表现最佳，而在第二个任务中DBN的准确率比SVM和GMM高出5%。

卷积神经网络 (CNNs) : 这些网络使用卷积操作从输入数据中提取特征。其基本思想是，网络包含多个滤波器，这些滤波器在信号上滑动，同时计算可用于作为特征的若干系数。使用此类网络，Chen等人[106]在嵌入率为0.5 bps（每样本比特数）的信号上实现了88.3%的分类准确率。类似地，Lin等人[107]使用了一种改进的卷积神经网络；他们使用了四个手动初始化为高通滤波器的滤波器，在采用不同嵌入率的最低有效位匹配隐写算法时，获得了更高的测试准确率。
残差神经网络 (ResNets) : 这类网络专门设计用于解决在训练非常深的神经网络时出现的梯度消失问题。ResNet通过在层之间引入跳跃连接或捷径来克服这一问题。形式上，该捷径通过添加恒等函数来修改 F(x)从数据映射的函数 x。因此，现在的映射函数为 F(x)+ x，由于其参考了输入数据，因此更容易优化。图12.6中展示了残差块的结构示意图。

使用更多层数训练神经网络的好处是，该网络能够从数据中提取或学习更复杂且更具区分性的特征。这可能会提高神经网络的性能。

Ren等人[108]设计了一种隐写分析方案，其中使用ResNet从数据中进行特征提取。由于这项工作与本节所述的一般方案有很大不同，并且表现出优异的结果，我们将对其进行详细描述。

图12.6 残差块示意图。残差块是ResNet架构的基本单元。环绕各层的弧线表示捷径。

图12.7 S‐ResNet架构。该神经网络由31个卷积层、一个非可训练层和三组各十个层组成。第一组（Conv‐1）每层使用十个滤波器，第二组（Conv‐2）使用20个滤波器，第三组（Conv‐3）使用40个滤波器。第一组中的层在两个方向上的 stride= 1，第二组和第三组中的层在垂直和水平轴上的 stride= 2。

作者使用音频信号的频谱图作为神经网络的输入。频谱图是信号频率成分随时间变化的视觉表示。为了绘制频谱图，必须将信号划分为多个帧。该图包含横轴（表示时域）、纵轴（表示频域）以及线条或点的颜色（表示在特定时间和频率下的信号功率）。通过这种方式，频谱图可被视为一个大小为 n× m的图像，其中n是帧大小的一半， m是在给定窗口大小下的帧数。因此，作者将信号的频谱图输入到一个神经网络中，他们称该网络为S-ResNet，如图 12.7所示。该特定架构由31个卷积层组成。特别是，第一层具有四个固定的滤波器，而网络中的其他滤波器在训练过程中进行更新。这些层中的所有滤波器大小均为 3 × 3。在每个卷积层之后，都有批归一化和ReLU层。前者通过归一化激活值来加速学习过程前一层，而ReLU激活为正在映射的函数提供非线性，使模型能够学习更复杂的模式。每两个卷积层之间设有定义残差块的跳跃连接，从而支持如此深度的神经网络训练。由于卷积层往往会通过增加更多通道使数据量变大，因此每五个残差块之后使用两个平均池化层来减小该数据量。在网络末尾有一个全局平均池化层，将体积展平为长度为40的一维向量，称为特征向量。网络的前四个滤波器是手工设计的，用于放大信号中的噪声，这些噪声可能与隐藏信息相关。这些滤波器的设计受到基于空间域丰富模型特征的图像隐写分析研究的启发[71]。最后，特征向量被输入到支持向量机（SVM）中以执行最终的训练和分类步骤。通过使用该方案并测试不同的窗口大小来生成频谱图，作者在AAC格式上实现了94.98%的平均分类准确率，在MP3格式上实现了99.93%的平均分类准确率。

循环神经网络（RNN） ：这类网络专门用于检测和提取序列数据或时间序列中的有用信息。因此，循环神经网络可用于音频文件（如语音记录），以检测相关模式。基于此，Lin等人 [109]提出了一种RNN架构，用于在网络电话（VoIP）流中检测隐藏消息，该场景要求较短的响应时间和高检测准确率。通过该模型，即使样本长度仅为0.1秒，他们仍达到了90% 的检测准确率，且平均测试时间仅为样本长度的0.15%。

12.3.2 总结与展望

介绍了音频隐写分析的几个重要概念，例如音频格式、隐写算法，以及这些算法如何影响某些信号特征。更重要的是，我们讨论了机器学习和深度学习方法如何应用于该任务。在音频隐写分析中，由于缺乏像图像隐写分析那样的明确基准，研究人员之间没有统一的标准。在图像隐写分析领域，每位研究人员都会在BOSSBase和BOWS2数据库上测试其工作成果，并且大多数人使用0.4bpp [16]嵌入率的S‐UNIWARD隐写算法。鉴于此，由于缺少用于测试的统一数据库，很难对已发表的音频隐写分析结果进行比较。因此，大多数研究人员使用不同的数据库。如[95],所述，现有音频隐写分析的研究主要集中在解决或攻破特定的隐写算法上，其中最低有效位（LSB）技术应用最为广泛。从这个角度来看，针对非LSB 隐写算法研究和设计更多的隐写分析方案将具有重要意义。

12.4 视频隐写分析

目前，互联网的速度使得视频能够被舒适地使用。由于人眼对数字媒体中的微小变化不敏感，因此可以通过修改视频来发送隐藏信息（隐写技术）。因此，需要检测这些变化的方法变得必要（隐写分析技术）。视频隐写分析旨在确定这些文件中隐藏数据的可能性[110]。视频隐写分析已针对隐写架构展开攻击。主要方法包括运动矢量(MVs)和帧内和帧间嵌入。这些方法已应用于 H.264/AVC标准以及最近的 HEVC标准中的视频。读者将了解该研究领域的主要方法以及视频隐写分析的工作原理。在先前的方法（基于运动向量），我们将描述以往使用的方法。在近期方法（基于帧内和帧间嵌入），将详细描述一种当前的算法。

12.4.1 一般背景

图12.8 秘密消息与载体视频生成隐写视频。该图展示了一个系统，其中应用视频隐写分析来识别被测视频是载体文本还是含密图像。

图 12.8展示了原始视频（视频载体）中的机密信息（秘密消息）。结果是带有隐藏消息的视频（隐写视频）。视频隐写分析用于在视频文件中搜索秘密信息。这些信息由用于嵌入数据的帧组成。视频序列按帧进行处理。

12.4.2 之前的方法

最初，直接应用了图像隐写分析技术，这些技术主要关注检测嵌入消息生成的噪声。由于帧与帧之间存在冗余信息，这些方法未能提供良好的结果。视频中的图像在相邻帧之间变化不大。因此，视频隐写分析方法与图像隐写分析相比具有显著差异。该隐写分析方法侧重于运动估计方案以及帧间和帧内嵌入。我们将讨论基于运动向量（MV）的视频隐写分析方法，这些方法一直应用到2018年。

MoViSteg算法 ：在 2007年，Jainsky等人 [111]提出了一种基于运动的视频隐写分析算法。该算法被称为MoViSteg（基于运动的视频隐写分析）。当仅部分帧包含隐藏信息时，该方法适用。该方法如图 12.9所示。该架构分为两个明显阶段：i) 通过运动估计进行信号处理，以及 ii) 基于渐近相对效率(ARE)的检测。它采用了一个高效的检测器，该检测器利用许多弱样本和信号，以对媒体分类为载体文本或隐写视频。
Kancherla和Mukkamala算法 ：在2009年，Kancherla和Mukkamala提出了一种通过探索空间和时间冗余来进行视频隐写分析的方法论。该方法使用了神经网络和支持向量机。数据库包含 42AVI格式的视频样本，每个样本持续时间为10秒。嵌入消息使用莫斯科国立大学的扩频隐写工具完成。秘密信息可通过嵌入密钥提取。采用聚类技术（如 k‐均值和EM（期望最大化））得到的结果较低。该方法表明，使用支持向量机、神经网络、 k‐近邻以及随机森林所获得的性能相似，但支持向量机产生的结果最佳。准确率值约为99%[112]。

图12.9 MoViSteg算法：基于运动的视频隐写分析。该图展示了一种视频隐写分析方法。该架构包含一个信号处理阶段和一个分类阶段。

曹、赵、冯算法 ： 2012年，曹等人[113]提出了一种对视频隐写分析的改进。该方法针对基于运动矢量的隐写术，专为以MPEG压缩的视频设计。由于压缩域的限制，该算法利用运动向量（MV）进行工作。运动矢量（MVs）方案采用针对性攻击方式，因此该系统仅适用于特定的MV方案，面对高级隐写系统时可能失效。使用MPEG‐4视频编解码器Xvid工具构建了数据库。该算法测试了阿里的[114],、徐的[115],、方和常[116],的隐写算法及其方法（Tar1, Tar2, Tar3, Tar4）。数据库包含22个视频序列，均为CIF分辨率，每个序列包含 75个不重叠帧，因此子序列总数达到111。该方法旨在消除修改运动矢量的随意性，其设计基于校准以及从运动矢量回返中获得的特征。该算法表明，规则运动估计中的扰动会导致重压缩过程中运动矢量的反转。该方法旨在提高所提特征的适应性，能够有效解决部分基于运动矢量的隐写术问题。
王、赵、洪霞算法 ：2014年，王等人[118]提出了一种基于运动向量的视频隐写分析方法，通过对运动向量加减一个值来实现。实验在采用不同隐写方法的载体视频上进行，并在不同比特率下由运动估计方法编码。他们成功改进了[113]中所提出技术导致的运动矢量的问题。这些运动矢量来自视频载体，根据绝对差值和（SAD）的数值判断，其在局部层次上不够优化。修改后的运动矢量对SAD的轻微影响，使得可以通过计算运动矢量局部区域SAD的最优值来提取特征。运动矢量上的加一或减一操作(AoSO) 用于分析隐写术所产生的影响，并随后提取新的AoSO特征。数据库包含两组YUV格式的数据，帧率为30 fps。第一组包含44个CIF（352x288）视频序列，其中前60帧用于实验。另一组数据库包含1157个CIF尺寸、30 fps的视频，实验中使用了前36帧。
扎尔梅希和阿里算法 ： Zarmehi andAli[119]开发了一种数字视频隐写分析算法，用于攻击扩频（SS）数据隐藏。图 12.10展示了该算法的示意图。

图12.10 扎尔梅希和阿里算法。该图显示了隐写分析框架的框图。该算法检测视频是载体文本还是含密图像。它还估计增益因子、隐藏消息以及原始帧。

该方法估计了SS嵌入规则下的隐藏消息和增益因子。载体帧被估计出来，并与接收到的视频帧进行比较。该算法计算残差矩阵。提取数组的特征，以及视频帧和估计帧的特征。然后将这些特征输入支持向量机（SVM），从而判断视频是载体文本还是含密图像。如果视频是载体文本，则过程结束。然而，如果视频可疑，则进一步估计嵌入过程的增益因子和隐藏消息。最后，重建原始视频。基于对不同版本的SS数据隐藏方案的实验，该方法被证明是准确的 [119]。

王、曹、赵算法 ：王等人 [120]提出了一种创新的隐写分析方法。该方法指出，现有的隐写分析技术未充分利用内容多样性，因为它们仅提取固定长度段落的特征。该方法针对自适应运动向量隐写术，特别是针对低比特率和低嵌入率视频中的曹 [121],姚 [122],和王 [123]。数据库包含100个CIF格式的YUV序列，每个序列帧率为30fps，帧数在150到300之间。数据库使用x264工具按照H.264/AVC标准进行处理。该算法将视频划分为子序列，从而能够提取具有相似运动强度的特征。独立的分类器接收这些特征，最后通过集成分类器判断视频是载体文本还是含密图像。
萨达特、法兹和萨法里算法 ：在 2018年，萨达特等人 [124]提出了一种基于运动向量的隐写分析方法。该算法结合了熵与运动向量特征。作者通过代价函数的局部优化提取了内在特征和统计特征。视频决定了运动向量中的纹理和准确率。由于H.264/AVC标准在隐写术中的流行性和广泛应用，他们采用了该标准 [125]。此外，作者使用了 284个CIF分辨率的未压缩视频序列 (352× 288)，颜色格式为YUV。他们攻击了三种隐写术方法，包括阿里的 [114] （准确率 79.45%）、曹的 [121]（准确率71.05%）以及玄森的 [126]（准确率 72.74%）。

12.4.3 最新方法

李、孟、徐、云清和远昌 [127]提出了一种基于HEVC标准视频中PU划分模式的隐写分析方法。通常，研究人员使用H.264/AVC标准在视频中隐藏信息。目前，最新的视频编码标准，即高效视频编码（HEVC）[128]（由视频编码专家组（VCEG）和动态图像专家组（ MPEG）提出），已被用于在高清和超高清视频中传输隐藏信息。

General context and definitions : 在HEVC标准中，视频包含图像组（GOPs）。每幅图像可划分为多个相同大小的方形编码树单元（CTU）。CTU包含更小的编码单元（CU）。每个CU包含一个变换单元（TU）和一个预测单元（PU）。在P图像中有25种可能的PU划分模式（PM‐25D），其概率如下（PoPUPM‐25D）。该算法使用PU划分模式[129]，可通过优化将特征从25维减少到3维（PoPUPM‐3D）。
方法：该方法由李、孟、徐、云清和远昌开发 [127]。该架构被称为HEVC视频隐写分析，如图12.11所示。

图12.11 HEVC视频隐写分析算法。该架构展示了用于训练和测试的特征提取阶段（生成PoPUPM概率），以及使用支持向量机的分类阶段。

该方法包括：

使用手动技术进行特征提取：P图像中PU划分模式的统计分布。
使用机器学习技术进行分类：采用支持向量机来区分载体视频和隐写视频。

该算法使用P图像中每个PU划分模式的概率（PoPUPM）。架构如下所述。

数据与预处理 ：谢、李、张和杨的隐写算法 [130]生成隐写视频。该算法基于载体视频在 HM 16下的样本序列的帧内预测和编码模式差异，针对HEVC标准进行信息隐藏。15[131] 视频集组织方式如下：1) 33个分辨率为 1280×720的视频，每个序列被分割为若干部分，每部分包含80帧；2) 30个分辨率为 1920× 1080的视频，每个序列被划分为10个部分，每部分包含50帧。
特征提取 ：载体视频和隐写视频的P图像生成所有PU划分模式。根据公式获取概率分布，并将其选为特征

$$
P_i = \frac{N_i}{\sum_{i=1}^{25} N_i},
\quad (12.6)
$$

其中， $i$的范围[1,25]为从P图像中提取的25种PU划分模式，$N_i$表示视频序列中第 $i$个PU的划分模式的总数。PU (8×4,4×8,8×16)的划分模式可能是一种三维特征（PoPUPM‐3D）。

分类阶段 ：从载体视频和隐写视频（PoPUPM）中提取的特征用于训练支持向量机。从测试视频中提取的特征被送入支持向量机分类器以验证模型。支持向量机分类器的核函数为多项式核函数。六分之五（5/6）的视频序列用于训练支持向量机，其余1/6用于随机地测试支持向量机。基于验证函数计算核函数的最优范围和代价；该过程重复20次，并对准确率取平均值。
结果：实验在分辨率为720P和1080P的视频序列上进行，720 P的比特率为（4M，8M， 12M），1080 P的比特率为（10M，30M，50M）。将25维特征优化并降维至三维。当比特率保持固定时，获得的准确率值高于96%，而通过合并视频实现了比特率准确率值高于93%。盛、王和黄的算法[132]在1080P视频集和10M比特率下最高仅获得了55.9%的准确率。该方法可检测出隐写算法。李、孟、徐、云清和远昌计划在其新兴隐写技术上测试他们的算法。

12.4.4 总结与展望

视频隐写分析适用于H.264/AVC [129]标准下的视频，最近也适用于HEVC [128]标准。它针对基于运动向量以及帧间和帧内预测模式的隐写算法。如今，机器学习技术特别是深度学习在处理大量数据方面发挥着至关重要的作用 [133]。绝大多数隐写分析算法仅关注图像；因此，开发更多用于视频隐写分析的方法至关重要 [127]。现代深度学习技术将有助于视频隐写分析。此外，研究人员目前自行生成视频，因此也需要固定的数据库，以为研究人员提供一个研究基准。最后，必须设计一种更通用的视频分析方法论，无论隐写术类型、格式或压缩方式如何，都能在媒体中实现更广泛的应用。

12.5 文本隐写分析

由于数字技术与媒体的发展，将消息隐藏在数字文本中的艺术（也称为文本隐写术）变得日益重要，因为它可应用于安全、通信和版权保护 [134]。因此，检测文本文件是否包含秘密消息引起了众多研究者的关注，用于实现此目的的技术被称为文本隐写分析 [134,135]。文本隐写术技术分为三种方法：基于格式或结构化、随机与统计以及语言学。其中，语言学方法相较于其他两种方法受到更多研究，因其利用自然语言的语言学特性来隐藏消息。该方法通过改变文本的属性，同时尽可能保持其原意，使得此方法最难被识别。有关这些技术的更多信息见[134,135]。

文本隐写分析被定义为检测文本中隐藏信息的过程。考虑到当文本被修改时，其统计特性也会随之改变，因此这种检测是可能的[134,136]。然而，与其他类型的数字媒体（如图像、音频或视频）相比，这是一项较为困难的任务[135]，因为可被更改的文本特征种类繁多，例如空格、同义词，甚至嵌入符号。用于文本隐写分析的技术可分为三种类型：视觉的、结构化的和统计的[134]。

视觉的 ：这类方法与人为因素相关，即当一个人能够通过视觉察觉文本中的异常之处，例如所使用的词语和连贯性。通过进行一些修改，可以检测到隐藏消息[134]。
结构化的 ：该方法涉及更改文本的格式或布局以发现异常情况。它还包括更改格式（ ASCII,UTF‐8,UTF‐9）来检测隐藏消息[134]。
统计的 ：当隐藏消息无法通过视觉或结构化技术检测时，使用统计方法较为方便。这些方法涉及计算可能解的数量，以通过以下方程找到秘密消息：

$$
NP = k \times 2^{N_S}, \quad SM = C_1, C_2, …, C_{N_S},
\quad (12.7)
$$

其中$NP$是可能解的数量，$N_S$是秘密消息的长度，$SM$是秘密消息。还可以估计隐藏符号的数量以及猜中正确秘密消息的概率

$$
P(N_H, N_C) = \binom{N_C}{N_H}, \quad N_H \leq N_C,
\quad (12.8)
$$

$$
P(SM) = \frac{1}{NP} \times \frac{1}{P(N_H, N_C)},
\quad (12.9)
$$

其中 $SM$ 是秘密消息，$N_H$ 是隐藏符号数量，$N_C$ 是完整文本中的字符数。如果 $P(SM)$ 等于零，则该消息使用密钥进行加密[134]。

12.5.1 方法

最近，人们提出了许多文本隐写分析方法，主要基于统计方法和机器学习。然而，大多数统计方法被用作支持向量机等机器学习算法的特征。此外，基于深度学习算法的一个相对较新的领域已显示出有希望的结果。

12.5.1.1 统计算法

语言隐写算法是研究最为广泛的，已经开发了许多隐写分析方法来检测由语言隐写算法隐藏的消息。这些方法旨在将每个目标文本分类为载体文本或含密图像。例如，最近的研究分析了同义词替换（SS）方法，其中某些词被其同义词替代，从而保持文本的含义几乎不变。然而，正如一些研究所提出的，这些变化会影响文本的统计和语义特性[137–141]。

一些模型采用特征，例如同义词频率和语义关系，使用如word2text [137,142]之类的分类器模型。利用该分类器，对同义词集（synset）的向量以及文本中的每个同义词进行分析。因此，如果同义词集中的同义词与文本中的同义词不一致，则称为不匹配。不匹配的数量用于检测隐写文本，此过程称为WEF[137]。在[138],中可以找到使用同义词集的其他方法，其中应用了同义词频率。此外，[140]采用了基于SS的类似方法，但侧重于提高检测语义失真的较低准确率。因此，通过计算词的相关性，然后减去高频词（由于无用信息较少），作者计算了每个同义词的上下文适应度以提取特征。最后，统计分析可以通过计算统计特征来应对基于翻译的隐写算法[141]。由于词频在翻译成另一种语言时很重要，普通文本相比隐写文本显示出更多的高频词。此外，使用不同的翻译器生成一一对应词（在目标语言中只有一个翻译的词），并将所有翻译中重复出现的词视为一一对应词，以扩大词频差异。最后，一个12维特征

图12.12 基于翻译的隐写术处理方法。通过从1‐gram和2‐gram中提取特征，获得十二个频率特征，用于分析或在支持向量机等机器学习方法中使用。

向量是通过从一个词（1‐gram）的频率差异中提取六个特征，以及从两个相邻词（ 2‐gram）的频率差异中提取六个特征构成的 [141]。图 12.12描述了该方法。

还有一些算法仅使用统计分析来查找隐写文本。例如，在[139]所提出的方法中，用于检测通过同义词游程编码创建的隐写文本。首先，从消息中获得一个中间序列，并分析英语中同义词的频率，考虑到在嵌入消息时，同义词的奇数编码游程（比特序列）的概率分布会发生变化。然后将中间序列分割为若干元素，并获取其概率分布。如果所获得的分布更接近于无隐藏消息文本的分布，则该文本为空；否则，它是一个隐写文本[139]。

有关这些技术的更多信息可在[137,138,140,141]中查阅。

关于机器学习算法，支持向量机（SVM）因其高性能而被最广泛使用。在此算法中，特征是一个关键因素。一种方法是在空格中隐藏消息；该方法在五种不同的文本类型（ Word、PDF）、布局（双栏、单栏）和字体（Calibri、Times New Roman、Arial）组合下显示出99%的准确率。为了提取特征，将文本的每一行分为两个包含相同数量单词的组，然后计算每组词间距离的总和，称为组距离（GP）。此外，还考虑了N窗口方差组距离（ WVGP）作为可能的特征，通过估计方差并了解文本行之间的方差应相近。直方图表明，作为特征，GP对隐藏信息比WVGP更敏感。此外，从两篇论文中选取了263行，数据被划分为训练集和测试集，采用GP作为特征，并测试了支持向量机分类器[143]。

12.5.1.2 现代文本隐写分析

在文本隐写分析中，深度学习算法的应用非常新，主要基于卷积神经网络和循环神经网络[144– 146]。

卷积神经网络 ：文等人提出了一种使用卷积神经网络的方法。作者针对短文本和长文本分别采用了不同的处理流程，使用了一个架构— 称为LS‐CNN。对于短文本，他们创建了一个包含文本中所有词的词典，并将这些词编码为其在词典中的索引位置。如图12.13所示，所提出的短文本架构包括三个部分：i) 词嵌入层，用于提取每个词的语义和句法特征；ii) 卷积层，输入为前一部分提取的词特征，用于学习句子特征；iii) 带有softmax激活函数的全连接层，用于进行分类。对于长文本，创建一个包含句子的词典，并将每个句子作为短文本进行分析，生成每个句子的结果数组。最后，通过计算公式（12.10）中所示的比例来做出判断。如果该比例高于阈值“t”，则判定为隐写文本。所提出的架构在短文本和长文本上均实现了高精度，优于最先进的模型。

$$
R = \frac{\text{Count(stego)}}{\text{Count(cover)}}.
\quad (12.10)
$$

图12.13 LS‐CNN架构。从嵌入层中提取语义和句法特征，作为卷积层输入以进行特征学习任务，随后通过带有softmax激活函数的全连接层进行多分类。

杨等人[145]提出了一种与[144]非常相似的方法。所开发的架构被称为TS‐CNN；然而，它可以分为TS‐CNN(简单)和TS‐CNN(多)。在TS‐CNN(简单)中，文本被作为单个句子进行处理，而在TS‐CNN(多)中，文本被分离并像之前的方法[144]一样进行处理。结果表明，TS‐CNN(简单)对长文本更有效，而TS‐CNN(多)对短文本更有效。

循环神经网络 ： Yang等人提出了最近使用循环神经网络的方法。 [146]该论文提出了一种名为TS‐RNN的架构，用于提取特征并对消息进行分类（含密图像–载体文本）。首先，由于嵌入消息可被视为加性噪声，文本被建模为信号，且文本中的概率分布会受到影响。接着，提出使用带有LSTM单元的循环神经网络来提取每个词的概率特征。因此，引入了双向 RNN（即前向和后向RNN）。网络的前向部分提取当前词与前面词之间的相关性，后向部分提取当前词与后面词之间的相关性。所获得的特征被融合后，最终传递到具有softmax激活函数的输出层。图 12.14展示了所提出的架构，其准确率接近100%。

图12.14 TS‐RNN架构。该架构在循环层中包含反向（底部）和正向（顶部），具有2个隐藏层和100个LSTM单元。

12.5.2 总结与展望

文本隐写分析算法主要用于检测通过语言隐写技术生成的、表面上几乎无变化的隐写文本 [134]。检测隐写文本的主要方法是采用统计方法，如同义词频率和语义相关性。通过统计方法分析的数据可作为特征输入到机器学习分类器（如支持向量机）中。也已实现了深度学习方法，主要使用卷积神经网络和循环神经网络来提取文本特征。所讨论的方法在统计算法、机器学习和深度学习方面均显示出前景。然而，目前缺乏明确的研究基准，且文本隐写分析领域的资源极为有限。