10、语音活动检测与数字水印技术的应用与探索

最新推荐文章于 2025-11-09 13:35:04 发布

week9

最新推荐文章于 2025-11-09 13:35:04 发布

阅读量11

点赞数

CC 4.0 BY-SA版权

分类专栏：非线性语音处理前沿文章标签：语音活动检测数字水印分数函数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/week9/article/details/155062410

非线性语音处理前沿专栏收录该内容

21 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

语音活动检测与数字水印技术的应用与探索

1. 语音活动检测的熵基方法及分数函数的引入

熵基方法在语音检测中具有一定的应用价值。当 $S_j$ 为白噪声时，$H(j)$ 达到最大值；当 $S_j$ 为纯音时，$H(j)$ 达到最小值（零）。这表明噪声帧的熵不依赖于噪声水平，并且阈值可以预先估计。基于此，熵基方法适用于白噪声或准白噪声环境下的语音检测，但对于有色噪声或非高斯噪声，其性能会变差。

为了解决这个问题，我们引入分数函数作为非线性变换。受盲源分离（BSS）/独立成分分析（ICA）算法以及盲线性/非线性反卷积的启发，我们在计算语音活动检测（VAD）的熵之前，使用分数函数对信号进行非线性修改，期望增强语音帧和非语音帧之间的差异，即使在高噪声环境中也能有效工作。

1.1 分数函数的定义与估计

给定向量 $Y$，分数函数定义为：
[
\psi_Y(u) = \frac{\partial \log p_Y(u)}{\partial u} = \frac{p_Y’(u)}{p_Y(u)}
]

由于我们关注非参数估计，采用核密度估计器来估计 $p_Y(u)$：
[
\hat{p} Y(u) = \frac{1}{hT} \sum {t=1}^{T} K\left(\frac{u - y(t)}{h}\right)
]

其中，$K$ 是核函数，$h$ 是核带宽。我们使用高斯核进行实验，并采用经验法则 $h = 1.06\hat{\sigma}T^{-\frac{1}{5}}$ 来选择带宽。通过 $\hat{p}_Y(u)$ 可以得到 $\psi_Y

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。