20、利用浊音语音检测语音转换欺骗攻击

最新推荐文章于 2025-10-31 10:38:26 发布

assembly8low

最新推荐文章于 2025-10-31 10:38:26 发布

阅读量42

点赞数

CC 4.0 BY-SA版权

分类专栏：探索NordSec 2022：安全IT系统的前沿文章标签：语音转换欺骗检测浊音语音分析预处理器阶段

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/assembly8low/article/details/149615055

探索NordSec 2022：安全IT系统的前沿专栏收录该内容

43 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

利用浊音语音检测语音转换欺骗攻击

1. 语音信号频谱差异分析

在语音信号中，真实语音和欺骗语音在频谱上存在差异。对于浊音段，在 0 - 4 kHz 频段存在明显差异，其中 0 - 1 kHz 频段差异最大。通过对 300 - 4000 Hz 进行简单线性插值，发现差异率约为 -17 dB/kHz，而在 4 - 8 kHz 频段，频谱差异较小。这表明浊音段的大部分频谱区分特征位于 0 - 4 kHz 频段。

对于清音段，频谱差异主要集中在 4 - 8 kHz 频段，但这些差异不如浊音段明显。以下是平均差异幅度谱的相关信息：
|攻击类型|频率范围|频谱差异情况|
| ---- | ---- | ---- |
|浊音段|0 - 4 kHz|差异明显，0 - 1 kHz 最大，差异率约 -17 dB/kHz|
|浊音段|4 - 8 kHz|差异较小|
|清音段|4 - 8 kHz|存在差异，但不如浊音段明显|

2. 预处理器阶段：子采样和浊音分割

基于上述对真实语音和欺骗语音浊音段频谱差异的观察，提出了一个预处理器阶段。该阶段以语音信号为输入，向反欺骗措施传递仅包含浊音段的信号。具体操作步骤如下：
1. 使用 20 ms 的语音帧和过零率（ZCR）检测器，将帧标记为浊音或清音。
2. 对语音信号进行 2 倍子采样。
3. 仅保留对应的浊音帧。

这个预处理器阶段将数据速率降低了约 4 倍，即去除静音和清音段使信号长度缩短约一半，子采样又使数据量减少一半。这对于需要低复杂度欺骗检测的应用（如个人语音助手）非常重要。以下是预处理器阶段的流程图：

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。