利用浊音语音检测语音转换欺骗攻击
1. 语音信号频谱差异分析
在语音信号中,真实语音和欺骗语音在频谱上存在差异。对于浊音段,在 0 - 4 kHz 频段存在明显差异,其中 0 - 1 kHz 频段差异最大。通过对 300 - 4000 Hz 进行简单线性插值,发现差异率约为 -17 dB/kHz,而在 4 - 8 kHz 频段,频谱差异较小。这表明浊音段的大部分频谱区分特征位于 0 - 4 kHz 频段。
对于清音段,频谱差异主要集中在 4 - 8 kHz 频段,但这些差异不如浊音段明显。以下是平均差异幅度谱的相关信息:
|攻击类型|频率范围|频谱差异情况|
| ---- | ---- | ---- |
|浊音段|0 - 4 kHz|差异明显,0 - 1 kHz 最大,差异率约 -17 dB/kHz|
|浊音段|4 - 8 kHz|差异较小|
|清音段|4 - 8 kHz|存在差异,但不如浊音段明显|
2. 预处理器阶段:子采样和浊音分割
基于上述对真实语音和欺骗语音浊音段频谱差异的观察,提出了一个预处理器阶段。该阶段以语音信号为输入,向反欺骗措施传递仅包含浊音段的信号。具体操作步骤如下:
1. 使用 20 ms 的语音帧和过零率(ZCR)检测器,将帧标记为浊音或清音。
2. 对语音信号进行 2 倍子采样。
3. 仅保留对应的浊音帧。
这个预处理器阶段将数据速率降低了约 4 倍,即去除静音和清音段使信号长度缩短约一半,子采样又使数据量减少一半。这对于需要低复杂度欺骗检测的应用(如个人语音助手)非常重要。以下是预处理器阶段的流程图: