语音识别与轮椅语音控制技术:创新方法与性能评估
1 移动或 IP 网络环境下的说话人识别新方法
1.1 方法概述
提出了一种在移动或 IP 网络环境下进行说话人识别的新方法。该方法直接使用从压缩语音包中解码得到的线性预测倒谱系数(LSF)参数,避免了特征参数提取过程中的解压缩和分析步骤,计算效率高,且在考虑数据包丢失的情况下可能更具鲁棒性。
1.2 关键技术 - RTD 处理
引入了 LSF 过程的受限时间分解(RTD),以在不损失必要信息的情况下减少 LSF 序列的数量。经验表明,对于 YOHO 语料库的 LSF 向量序列,RTD 过程大约以 16Hz 的频率生成事件。
1.3 实验结果
实验结果显示,该方法比传统的说话人识别方法快三倍多,识别准确率达到 97.25%,而传统方法为 96.79%。虽然未分析性能提升的置信度和原因,但推测事件向量重新估计可能带来了这种提升。
2 语音激活电动轮椅控制中的语音/非语音分类
2.1 背景与动机
电动轮椅为残疾人和行动不便的老年人提供了独特的移动性,但对于患有严重运动障碍的人来说,控制标准电动轮椅可能很困难。当前的语音识别技术虽然性能较高,但对于一些需要高可靠性的应用,如残疾人士的电动轮椅语音控制,还不够完善。因此,需要一种可靠的语音/非语音(V/NV)分类算法,以拒绝非语音输入,实现高度可靠的系统。
2.2 系统与数据库
2.2.1 系统组成
系统由 8 个麦克风(双 4 通道)、8 通道模拟/数字板、奔腾 M 1.2GHz 平板
超级会员免费看
订阅专栏 解锁全文
562

被折叠的 条评论
为什么被折叠?



