语音活动检测与数字水印技术的应用与探索
1. 语音活动检测的熵基方法及分数函数的引入
熵基方法在语音检测中具有一定的应用价值。当 $S_j$ 为白噪声时,$H(j)$ 达到最大值;当 $S_j$ 为纯音时,$H(j)$ 达到最小值(零)。这表明噪声帧的熵不依赖于噪声水平,并且阈值可以预先估计。基于此,熵基方法适用于白噪声或准白噪声环境下的语音检测,但对于有色噪声或非高斯噪声,其性能会变差。
为了解决这个问题,我们引入分数函数作为非线性变换。受盲源分离(BSS)/独立成分分析(ICA)算法以及盲线性/非线性反卷积的启发,我们在计算语音活动检测(VAD)的熵之前,使用分数函数对信号进行非线性修改,期望增强语音帧和非语音帧之间的差异,即使在高噪声环境中也能有效工作。
1.1 分数函数的定义与估计
给定向量 $Y$,分数函数定义为:
[
\psi_Y(u) = \frac{\partial \log p_Y(u)}{\partial u} = \frac{p_Y’(u)}{p_Y(u)}
]
由于我们关注非参数估计,采用核密度估计器来估计 $p_Y(u)$:
[
\hat{p} Y(u) = \frac{1}{hT} \sum {t=1}^{T} K\left(\frac{u - y(t)}{h}\right)
]
其中,$K$ 是核函数,$h$ 是核带宽。我们使用高斯核进行实验,并采用经验法则 $h = 1.06\hat{\sigma}T^{-\frac{1}{5}}$ 来选择带宽。通过 $\hat{p}_Y(u)$ 可以得到 $\psi_Y
超级会员免费看
订阅专栏 解锁全文
585

被折叠的 条评论
为什么被折叠?



