关注议题:语音识别-框架与技术

本文深入探讨了语音识别领域的核心技术,通过分析云知声创始人梁家恩的观点,揭示了语音识别在人工智能中的重要地位。文章涵盖了相关框架的运用及最新技术进展。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

源文章:梁家恩的云知声 http://www.youkuaiyun.com/article/2014-01-24/2818252 

评记:很早就想了解语音方面的东西,苦于知识杂乱一直未深入,这篇文章倒是给出了典型的事例。遂记之。
总体框架
1、总体来说,语音技术一共有三大部分: 语音识别 语义理解 语音合成 ,三部分形成一个完整的闭环。相较而言,语音识别是更为复杂的技术,云知声前期便从   语音识别技术出发开始往外扩展。
2、语音技术的两个维度:搜索技术----在知识库和语音模型之间进行搜索,找到一条词与词之间相匹配的路,找到概率最大的词;
                                     语音统计模型 ----隐马尔可夫统计模型:包含特征提取、模块解码器知识库、声学模型及其识别算法共计五部分, 据说是李开复先生的大作。
功能部分
1、语音搜索
     但语音的搜索和搜索引擎的区别在于语音搜索是要找一个概率最大的文本,也就是找到   与你说出来的声音信号 最匹配 的文本信号
     这本质上是一个概率统计问题。
     搜索过程是对一个大网络中不同的词汇间的关系展开的:比如中文里有40万个词,不同词间的关系(链接)代表不同的网络状态;
      每一个词可作为节点,任何一个词都可能走到其它节点,这叫一条通路。搜索的目的就是找出最佳通路。
2、特征提取--提取特征信号与噪声处理
     提取特征信号: 将语音经由信号处理转换成模块输入,根据 频段 直接将声压信号转换成数字信号,提取出 直接能反映说话内容的特征
     噪声处理: 使声音能被识别器很好识别
3、模块解码器
    将特征提取过程中提取的特征输入系统,在知识库、声学模型里进行搜索,最终输出识别结果。
4、知识库
     语音样本,并通过这些样本数据可训练出一个语音识别系统。
5、搜索算法
    通常采用高斯混合算法解决声音匹配问题,在微软提出深度神经学习技术后,云知声算法团队也将高斯混合算法换成了深度神经网络模型,
    并发现它在解决声学匹配方面更好,理论上和人脑神经感知的方式相当接近。
    因为需要以很快的速度识别出说话的内容,所以深度神经网络不仅对解码器也提出了很大挑战,对硬件的要求非常高。
    云知声在认真研究微软的代码之后,改写实现效率低的代码,再利用最新的 CPU提供的特性,计算量大的部分均采用汇编语言写到CPU处理能力强
    的地方,并一层一层优化。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值