音频水印性能评估与感知质量评价
1. 音频水印性能评估
在音频水印嵌入过程中,不同的宿主信号对计算机内存的利用率相同,这使得平均嵌入速度相近。然而,在执行检测算法时,需要从每个水印区域提取水印位。这是因为在不同步攻击的情况下,块的结构会发生扭曲,所以为了实现块同步,需要同时提供每个水印区域(而不仅仅是每个块)中所有图块的幅度。这导致不同的宿主信号在检测过程中对计算机内存的利用率不同。较大的水印区域需要更多的计算机内存,因此平均检测速度较慢;反之,较小的水印区域平均检测速度较快。总体而言,平均检测速度比平均嵌入速度快得多,这在版权保护应用中是一个理想的特性。
1.1 性能比较
为了评估音频水印方案的性能,我们将提出的方案与几种现有的音频水印方案进行了比较,主要关注不可感知性、鲁棒性和数据有效载荷。
- 不可感知性评估 :使用信噪比(SNR)作为度量标准,通常指所有水印信号的平均SNR。
- 鲁棒性测试 :攻击类型包括噪声添加(NA)、重采样(RS)、幅度缩放(AM)、低通滤波(LP)、回声添加(ECHO)、MP3压缩(MP3)和PITSM(TSM)等。
- 数据有效载荷估计 :采用实际数据有效载荷(eDPB)进行比较,即嵌入到特定时长宿主信号中的实际水印位数。
以下是不同音频水印方案的性能比较表格:
|方案|不可感知性(SNR)|鲁棒性 - NA|鲁棒性 - RS|鲁棒性 - AM|鲁棒性 - LP|鲁棒性 - ECHO|鲁棒性 - MP3|鲁棒性 - TSM|数据有效载荷(fDPB)|
|----|----|----|----|----|----|----|----|----|----|
|Proposed|30.1 dB|30dB|22.05 kHz|±20 %|5 kHz|(0.3, 200 ms)|48 kbps|±10 %|11.9 bps|
|[1]|33.5dB|5dB|8.82 kHz|=|5 kHz|=|32 kbps|±1 %|5.4 bps|
|[2]|43.8dB|40dB|16 kHz|±20 %|7 kHz|=|64 kbps|±25 %|2 bps|
|[3]||20dB|24 kHz|+50 %||(0.4, 100 ms)|64 kbps|=|<10 bps|
|[4]|=|20dB|22.05 kHz||5 kHz|(0.5, 100 ms)|32 kbps|±5 %|8.4 bps|
|[5]|29.5dB||22.05 kHz|+50 %|4 kHz|(0.4, 100 ms)|32 kbps|±10 %|4.3 bps|
|[6]|=|36dB|48 kHz|=|4 kHz|=|56 kbps|±10 %|2.3 bps|
|[7]|32.4dB||22.05 kHz||8 kHz|(0.5, 100 ms)|48 kbps|±3 %|11.8 bps|
|[8]|=|36dB|=|=||(=, 100 ms)|32 kbps|±4 %|0.5 - 1 bps|
|[9,10]|35dB|40 dB|=|=|=|(0.5, 100 ms)|96 kbps||2.2 bps|
从表格中可以看出,不同方案具有不同的性能特点。平均而言,提出的方案在不可感知性、鲁棒性和容量之间取得了最佳平衡。
- 不可感知性方面 :提出方案的SNR在其他方案的范围内,平均客观差异等级(ODG)为 -1.33。尽管[2]方案的SNR较高,但其ODG约为 -1.80,并不优于提出的方案。[3]方案未提及SNR,其平均ODG为 -0.93。
- 鲁棒性方面 :大多数方案对重采样、幅度缩放和回声添加表现出较高的抗性,因此重点关注PITSM、噪声添加、低通滤波和MP3压缩下的性能。在PITSM攻击下,只有提出的方案以及[2]、[5]、[6]方案能够抵抗高达±10%或更大的过度失真。提出的方案对PITSM(±10%)、噪声添加(30 dB)、低通滤波(5 kHz)和MP3压缩(48 kbps)具有鲁棒性。与提出的方案相比,[2]方案对PITSM(±25%)相当鲁棒,但对噪声添加(40 dB)、低通滤波(7 kHz)和MP3压缩(64 kbps)相对脆弱。[5]方案在低通滤波(4 kHz)和MP3压缩(32 kbps)方面略强,但在噪声添加方面没有指定SNR值进行比较。[6]方案在低通滤波(4 kHz)方面略强,但在噪声添加(36 dB)和MP3压缩(56 kbps)方面较弱。
- 数据有效载荷方面 :提出的方案具有最高的实际数据有效载荷,即11.9 bps,远高于[2]、[5]、[6]方案的2 bps、4.3 bps和2.3 bps。此外,提出方案的理论数据有效载荷更高,约为17.2 bps。
1.2 性能评估总结
对提出的音频水印方案的性能进行了全面评估,包括不可感知性、鲁棒性、安全性、数据有效载荷和计算复杂度。具体的性能评估包括感知质量评估、鲁棒性测试、安全分析、数据有效载荷估计和计算复杂度评估。
- 感知质量评估 :采用主观听力测试和客观评估测试。主观听力测试包括MUSHRA测试和主观差异等级(SDG)评级;客观评估测试包括计算ODG(使用PEAQ)和SNR值。
- 鲁棒性测试 :包括基本和高级鲁棒性测试。基本鲁棒性测试涵盖常见信号操作(如噪声添加、重采样、重新量化、幅度缩放、低通滤波、DA/AD转换、回声添加、混响和MP3压缩)、不同步攻击(如随机样本裁剪、抖动、零插入、PITSM和TPPSM)和组合攻击(如I型和II型组合攻击)。高级鲁棒性测试包括StirMark for Audio、平均勾结和多水印(如自水印和两种类型的互水印)。
- 安全分析 :计算了由于信道加扰导致的可能嵌入方式的数量。
- 数据有效载荷计算 :计算了理论和实际数据有效载荷。
- 计算复杂度评估 :根据嵌入/检测的PC计算时间以及平均嵌入/检测速度进行评估。
实验结果表明,水印音频信号在感知上是透明的,对各种攻击具有鲁棒性,并且能够自我保护免受未经授权的检测。与其他方法相比,提出的技术在数据有效载荷和计算复杂度方面的水印效率令人满意。与其他报道的方案相比,提出的方案在不可感知性、鲁棒性和数据有效载荷之间取得了更好的平衡,因此可以得出结论,该音频水印方案在版权保护方面表现良好。
2. 音频水印感知质量评价
不可感知性是使用水印音频的先决条件,因此感知质量评估值得更多关注。客观质量度量在语音质量评估中已被广泛使用,现在首次用于音频水印的感知质量评估。
2.1 感知质量评估方法
音频水印的感知质量评估有两种方法:主观听力测试和客观评估测试。
-
主观听力测试
- ABX测试 :听众需要将未知样本X识别为A或B,A为宿主信号,B为水印信号。也可以作为ABC/HR测试进行,即双盲、三刺激、隐藏参考。听众在听完三个刺激后,需要在B和C中确定隐藏参考信号,剩余的一个即为水印信号。最后,使用主观差异等级(SDG)对水印信号相对于宿主信号进行评估。
- MUSHRA测试 :用于评估中级音频质量,由于使用了多个刺激(包括隐藏参考和一些附加信号),在存在稍大失真的情况下,MUSHRA测试比ABX测试更可靠。
主观听力测试对于感知质量评估是必不可少的,因为最终判断由人类感知做出。然而,进行此类听力测试非常耗时且成本高昂,并且测试结果受测试环境和参与者偏好的影响。因此,基于机器的客观评估用于提供方便、一致和公平的评估。
- 客观评估测试 :旨在促进主观听力测试的实施,其结果应与SDG分数密切相关。常用的客观评估方法是通过模拟人耳来评估音频数据的感知质量,如EAQUAL、PEAQ和PEMO - Q。这些方法建立听觉感知模型来模仿人类的听力行为,将宿主和水印信号分别通过心理声学模型,计算信号特征的内部表示(如掩蔽阈值),比较两者的内部表示以确定可听差异,该差异作为认知模型的输入,经过感知缩放后输出客观差异等级(ODG)。为了保证评估的准确性,需要大量相关测试信号来训练和表征这些模型。在已实现的模型中,PEMO - Q是最新和最先进的音频质量预测器,具有更高的适用性和更好的性能。
2.2 客观质量度量
除了感知建模,还可以使用客观质量度量来量化水印信号和宿主信号之间的差异。以下是几种常用的客观质量度量:
-
分段信噪比(segSNR)度量 :是SNR的一种变体,通过平均所有帧的SNR得到。计算公式为:
[d_{segSNR}(g_w, g_o) = 10 \log_{10} \frac{\sum_{n = 1}^{N} [g_o(n)]^2}{\sum_{n = 1}^{N} [g_w(n) - g_o(n)]^2}]
其中,$g_o$是宿主帧,$g_w$是水印帧,$N$是帧长度(样本数)。在实验中,$N = 512$,对应采样率为44.1 kHz时的11.6 ms。实际上,segSNR高于35 dB的帧不反映人类感知差异,通常将其segSNR替换为35 dB。为防止出现异常segSNR,将segSNR的下限设置为 -10 dB,因此segSNR值限制在[-10 dB, 35 dB]范围内。 -
倒谱失真度量 :用于估计水印帧和宿主帧之间的倒谱距离。给定倒谱系数向量$\vec{E} {c_w}$和$\vec{E} {c_o}$,前$L$个系数的CD计算公式为:
[d_{CD}(\vec{E} {c_w}, \vec{E} {c_o}) = \sum_{l = 1}^{L} [\vec{E} {c_w}(l) - \vec{E} {c_o}(l)]^2]
在实验中,$L = 50$。 -
对数似然比度量 :基于线性预测(LP)分析。给定LP系数向量$\vec{E} {a_w}$和$\vec{E} {a_o}$,LLR度量定义为:
[d_{LLR}(\vec{E} {a_w}, \vec{E} {a_o}) = \log_{10} \frac{\vec{E} {a_w}R_o\vec{E} {a_w}^T}{\vec{E} {a_o}R_o\vec{E} {a_o}^T}]
其中,$R_o$是自相关矩阵,$(\cdot)^T$表示矩阵的转置。 -
Itakura - Saito失真度量 :与LLR度量略有不同,定义为:
[d_{IS}(\vec{E} {a_m}, \vec{E} {a_o}) = \frac{\sigma_o^2}{\sigma_w^2} \cdot \frac{\vec{E} {a_w}R_o\vec{E} {a_w}^T}{\vec{E} {a_o}R_o\vec{E} {a_o}^T} + \log_{10} \frac{\sigma_w^2}{\sigma_o^2} - 1]
其中,$\sigma_o^2$和$\sigma_w^2$分别是宿主帧和水印帧的全极点增益。 -
对数面积比度量 :基于LP分析,依赖于LP反射系数。计算公式为:
[d_{LAR}(\vec{E} {r_w}, \vec{E} {r_o}) = \left|\frac{1}{P} \sum_{p = 1}^{P} \left[\log_{10} \frac{1 + \vec{E} {r_o}(p)}{1 - \vec{E} {r_o}(p)} - \log_{10} \frac{1 + \vec{E} {r_w}(p)}{1 - \vec{E} {r_w}(p)}\right]^2\right|^{\frac{1}{2}}]
其中,$P$是LP分析的阶数,在实验中$P = 10$。由于反射系数与功率谱密切相关,LAR度量能够有效估计宿主信号和水印信号频谱对数之间的差异。 -
加权频谱斜率度量 :基于听觉模型,使用36个带宽逐渐增大的重叠滤波器来估计平滑的短时频谱,然后计算每个频段中频谱斜率(SL)的加权差异。
通过这些客观质量度量,可以更准确地评估音频水印的感知质量,为音频水印技术的发展提供有力支持。
下面是音频水印感知质量评估的流程 mermaid 图:
graph LR
A[音频水印信号] --> B[主观听力测试]
A --> C[客观评估测试]
B --> B1[ABX测试]
B --> B2[MUSHRA测试]
C --> C1[心理声学模型]
C1 --> C2[比较内部表示]
C2 --> C3[认知模型]
C3 --> C4[输出ODG]
综上所述,音频水印的性能评估和感知质量评价是确保水印技术在版权保护等应用中有效应用的重要环节。通过综合考虑不可感知性、鲁棒性、数据有效载荷和感知质量等因素,可以不断优化音频水印方案,提高其性能和实用性。
3. 客观质量度量的实验分析
为了进一步探究这些客观质量度量在音频水印感知质量评估中的作用,我们进行了一系列实验。实验选取了多种不同的音频水印技术,对不同的客观质量度量与感知质量之间的关系进行了深入研究。
3.1 实验设置
- 音频数据集 :使用了多种不同类型和风格的音频信号作为宿主信号,以确保实验结果的普遍性。
- 水印嵌入方法 :采用了多种常见的音频水印嵌入技术,将水印嵌入到宿主信号中,生成水印音频信号。
- 评估指标 :同时使用主观听力测试的SDG分数和客观评估测试的ODG分数,以及各种客观质量度量结果进行评估。
3.2 实验结果与分析
- segSNR与感知质量的关系 :实验结果表明,segSNR与人类感知质量有一定的相关性。当segSNR值较高时,意味着水印对宿主信号的干扰较小,人类感知到的差异也相对较小。然而,segSNR也存在一定的局限性,例如在某些情况下,即使segSNR值较高,人类仍然可能感知到水印的存在。这是因为segSNR只是对信号整体失真的平均度量,无法准确反映信号局部的变化。
- CD度量与感知质量的关系 :CD度量能够较好地反映水印帧和宿主帧之间的倒谱差异。在实验中发现,CD值越大,说明水印对信号的频谱特性改变越大,人类感知到的差异也越明显。因此,CD度量可以作为评估音频水印感知质量的一个重要指标。
- LLR和IS度量与感知质量的关系 :LLR和IS度量基于线性预测分析,能够捕捉到信号的线性特征变化。实验结果显示,这两种度量在预测带有加性噪声的信号识别率方面表现良好,与感知质量也有一定的相关性。当LLR和IS值较大时,表明水印对信号的线性结构产生了较大的影响,可能会导致人类感知到明显的差异。
- LAR度量与感知质量的关系 :LAR度量由于其与功率谱的密切关系,能够有效地估计宿主信号和水印信号频谱对数之间的差异。在某些实验场景中,LAR被证明是最好的度量之一。它可以较为准确地反映水印对信号频谱特性的影响,从而与感知质量建立起紧密的联系。
- WSS度量与感知质量的关系 :WSS度量基于听觉模型,考虑了人类听觉系统对不同频段信号的敏感度。实验结果表明,WSS能够较好地反映水印对信号频谱斜率的影响,与感知质量有较强的相关性。通过对频谱斜率的加权差异计算,WSS可以更准确地模拟人类对音频信号的感知。
以下是不同客观质量度量与感知质量相关性的表格总结:
|客观质量度量|与感知质量的相关性|
|----|----|
|segSNR|有一定相关性,但存在局限性|
|CD度量|较好反映频谱差异,相关性较强|
|LLR和IS度量|在预测带噪信号识别率方面表现好,有一定相关性|
|LAR度量|在某些场景中表现最佳,相关性较强|
|WSS度量|基于听觉模型,相关性较强|
3.3 客观质量度量性能总结
通过实验分析,我们可以看出不同的客观质量度量在评估音频水印感知质量方面各有优劣。综合使用多种客观质量度量,可以更全面、准确地评估音频水印的感知质量。在实际应用中,可以根据具体的需求和场景,选择合适的客观质量度量来进行评估。
4. 音频水印技术的发展展望
随着信息技术的不断发展,音频水印技术在版权保护、内容认证等领域的应用越来越广泛。未来,音频水印技术将朝着更加高效、安全、鲁棒和不可感知的方向发展。
4.1 性能提升
- 提高不可感知性 :进一步优化水印嵌入算法,使水印更加难以被人类感知,同时保证水印的鲁棒性和数据有效载荷。例如,结合人类听觉系统的特性,设计更加精细的水印嵌入策略。
- 增强鲁棒性 :针对各种可能的攻击,如噪声添加、重采样、压缩等,开发更加鲁棒的水印算法。可以采用多域嵌入、纠错编码等技术来提高水印的抗攻击能力。
- 增加数据有效载荷 :在保证不可感知性和鲁棒性的前提下,提高水印的数据有效载荷,以便能够嵌入更多的信息,如版权信息、认证码等。
4.2 技术融合
- 与其他安全技术结合 :将音频水印技术与加密技术、数字签名技术等相结合,提供更加全面的安全保障。例如,先对水印信息进行加密处理,再嵌入到音频信号中,提高水印的安全性。
- 跨媒体应用 :实现音频水印技术与视频、图像等其他媒体水印技术的融合,为多媒体内容提供统一的版权保护和认证方案。
4.3 应用拓展
- 物联网领域 :在物联网设备中,音频水印技术可以用于设备身份认证、数据溯源等方面。例如,在智能音箱的音频数据中嵌入设备唯一标识,实现设备的身份验证。
- 虚拟现实和增强现实 :在虚拟现实和增强现实的音频场景中,音频水印技术可以用于保护音频内容的版权,防止未经授权的使用。
以下是音频水印技术发展的趋势 mermaid 图:
graph LR
A[音频水印技术] --> B[性能提升]
A --> C[技术融合]
A --> D[应用拓展]
B --> B1[提高不可感知性]
B --> B2[增强鲁棒性]
B --> B3[增加数据有效载荷]
C --> C1[与其他安全技术结合]
C --> C2[跨媒体应用]
D --> D1[物联网领域]
D --> D2[虚拟现实和增强现实]
5. 总结
音频水印的性能评估和感知质量评价是音频水印技术研究的重要内容。通过对不可感知性、鲁棒性、数据有效载荷等性能指标的评估,以及对主观听力测试和客观评估测试方法的运用,我们可以全面了解音频水印方案的优劣。同时,引入客观质量度量,能够更加准确地评估音频水印的感知质量,为音频水印技术的优化提供有力支持。
在未来的发展中,音频水印技术将不断提升性能,与其他技术进行融合,并拓展应用领域。我们需要持续关注这些发展趋势,不断探索和创新,以推动音频水印技术在更多领域的广泛应用,为数字音频内容的安全和版权保护提供更加可靠的保障。
总之,音频水印技术在保护音频内容版权、防止非法传播等方面具有重要的意义。通过对其性能和感知质量的深入研究和不断改进,我们可以更好地满足日益增长的数字音频安全需求。
超级会员免费看
3

被折叠的 条评论
为什么被折叠?



