WeNet 开源社区正式发布 wekws,面向产品的新一代端到端唤醒框架。该工作在西北工业大学航海学院张晓雷老师团队、西工大音频语音与语言处理研究组谢磊老师团队的支持下完成。wekws 具有如下产品优先, 端到端, 轻量级, 高准确率四大优点。
目前该工作已经投稿 ICASSP 2023。
论文地址为:https://arxiv.org/pdf/2210.16743.pdf

为什么要做 wekws?
语音唤醒在日常生活领域已经有了非常广泛的应用,例如手机上的个人助手 Siri,智能音箱上的小爱同学、天猫精灵,智能汽车中的你好小迪(比亚迪)、理想同学(理想汽车)等等的场景。然而实际工业界在落地唤醒时,确有如下突出问题:
-
方法众多:有 HMM Filler,有 Deep KWS[1],有类端到端方法,训练损失函数上有 CE、有 CTC、有 RNN-T、也有 max-pooling 等。复杂的方法增加了大家调研、选择和学习的成本,并且部分方法训练和部署难度大。
-
部署的芯片和平台众多:唤醒部署的芯片和硬件平台非常的多样化,很多平台需要独立适配,工作量大、成本高

WeNet社区发布wekws,这是一个针对语音唤醒的产品级端到端开源框架。它具备产品优先、端到端、轻量级及高准确率的特点,支持多样化的部署平台。
最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



