实时vad(替换webrtcvad)

文章指出WebRTC VAD在处理100ms chunk和噪声过滤方面的局限性,并介绍了一个GitHub上的高性能VAD模型,该模型已被转换为ONNX格式,并提供简化后的使用代码和实时检测案例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

之前分享了一款实时vad是webrtcvad,但在实际使用中发现如下问题:

  • 每次判断chunk是否是vad,chunk的长度有限制,webrtcvad只支持10ms、20ms以及30ms的判断,但我希望能一次判断100ms的chunk,无法满足。
  • 无噪声情况下webrtcvad的效果还是不错的,并且速度也很快,但实际情况中,噪声还是很常见的,而webrtcvad对这种噪声是无法过滤的,此处的噪声指的是场景白噪声(通俗来说就是麦克风在收音时录制的环境噪声,类似滋滋滋这种),而此类噪声也是很常见的~

为了解决这个问题,基本的想法是使用神经网络训练一个vad模型,但考虑到数据和周期性,无法满足,偶然发现GitHub现存一款性能很好的vad,完全可以替代webrtcvad,此处贴上官方的地址,模型转化为了onnx,我对此vad的使用做了一个简化,代码如下:

rom utils_vad import OnnxWrapper, 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码匀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值