智能硬件语音交互流程分析

最新推荐文章于 2025-10-10 15:37:43 发布

转载最新推荐文章于 2025-10-10 15:37:43 发布 · 2.2k 阅读

·

0

·

智能语音专栏收录该内容

7 篇文章

订阅专栏

“智能音箱”技术详解

如今智能语音控制特别火热，智能音箱、汽车、手机……

君子动口不动手，下面讲讲如何实现“动口不动手”？

语音控制的流程

声音采集—>降噪—>语音唤醒—>语音转文字—>语义理解—>回复文字和指令—>文字转声音—>播放声音

举例：

1、用户说“天猫精灵，今天天气怎么样？”

2、“天猫精灵”被语音唤醒模块接收到，并判断为唤醒词，然后开始记录后续的“今天天气怎么样”这段语音，并发送给云端服务器。

3、服务器把这段语音，转化成文字“今天天气怎么样”，交给语义理解服务器

语义理解服务器把“今天天气怎么样”这段文字，拆解成“事件=查询天气，时间=今天”这段控制指令回传给设备。

4、设备根据时间和本机地理位置，找天气服务器查询天气，并获得天气的的文本数据“今天要下雨”

5、设备把“今天要下雨”这几个字发给文字转声音的服务器，服务器返回“今天要下雨”这段声音，由设备喇叭播放出来。

（3，4，5这三个动作，可以拆开由各个服务器单独完成，也可以由一个服务器统一完成。）

（车载系统做的比较简单，主要靠本地识别，落后智能音箱至少5年。）

各模块的功能

降噪（AEC）通过麦克风阵列，判断人在哪个方向，增强那个方向的拾音效果。这样可以在5米之外就能听到人在说话，足够一间房间使用了。

还可以在本机播放音乐的时候，滤除麦克风接收的本机音乐，使得智能音箱在播放音乐的时候也能被唤醒。

这就是大家讲的双麦降噪、7麦阵列之类的。

国际上做的比较好的是科胜讯（Conexant），国内做的比较好的是科大讯飞，国内现在有几十家小公司在做语音降噪算法

（然而这些小公司很快都会挂掉，原因见文章后面）

唤醒智能音箱的麦克风在7x24小时接收外部声音，持续分析这些声音，看看是否能检测到唤醒词（例如前面讲的“天猫精灵”），一旦检测到了唤醒词，就把之后的语音传给语音识别服务器。

国际上唤醒词做的最好的是Sensory，国内的主要是讯飞等语音识别公司。

像智能手表上，一般会有一颗专门的低功耗芯片，内置唤醒词算法，随时打开等着你说话。不需要占用CPU资源，非常省电。

语音转文字（ASR）语音并不能直接拿来分析成意思，必须要转化成文字。这是个成熟的技术了，以前还会有在现在大数据算法的辅助下，结合上下文理解，已经可以非常准确的把声音变成文字了。

语义理解（NLP）自然语言处理，就是把人的语言转化成机器能够理解的数字，分解开，并回复响应的语言。

大家觉得智能音箱是“智障音箱”，主要还是因为这里，现有的技术只能做到固定的问答，而无法像人类一样思考。

再加上人类语言有大量的不同表达方式和歧义语句，理解错误的地方也会非常多。例如“杀死猎人的狗”，杀死的是猎人，还是狗？

只有NLP语义处理能够接近人类的理解了，机器的语音交互，才真的能让用户正常对话。

文字转语音（TTS）：这个大家都很熟悉了，不管是机械感强烈的讯飞，还是越来越俏皮的siri，或是高德地图的志玲姐姐声音，都是依靠TTS语音合成，把文字变成声音的。

做这个语音合成的非常多，早些年有放在本机端的，现在一般都是云端来合成。

主流架构

经典架构：降噪用专门的DSP芯片

主控用Android平台，

语音识别、语义识别、语音合成三个放在云端

控制和显示放在本地

现有的国产智能音箱，全都是这个架构的

做的最好的：Amazon Echo全球销量最大的，是Amazon Echo系列，几年时间卖了3000万台，直接导致国内2017年智能音箱公司大量涌现。

Echo和其他智能音箱最大的区别是：所有的控制，都放在云端了。哪怕你家的WIFI台灯和Echo是在同一个局域网，这个灯也是从云端直接控制的。

把控制也放到云端的好处是：智能音箱本身不需要升级任何程序，就可以支持所有的智能硬件。

做的最简单的：Google Android ThingsAndroid Things在2018CES刚发布了新版本，做的比Amazon更省事，把前端语音降噪都放在云端去做了。算法更容易更新，随着时间的发展，能够提供比本地降噪更优秀的降噪效果。

还能够降低硬件要求，从而降低硬件成本。

智能音箱发展趋势

没屏的降成本，越做越简单带屏幕，做复杂交互，作为中枢多个房间，分布式拾音网络云端化，能放在云端的服务都会放上去。做降噪算法，会比较难活下去传统语音识别企业，被互联网打压（写太长了大家不爱看，具体原因后面再讲。喜欢看的求个“赞”，鼓励一下小编继续敲键盘吧~~）

总结

智能音箱，美国卖的很好，国内卖的不怎么样。

虽然不知道谁能一统江湖，但以后一定是大势所趋。

中国卖的不太好的原因，主要是汉语太复杂，稍微调戏一下，智能音箱很容易就变成了智障音响了。

还有一个原因是，很多中国人生性喜欢和人交流，不喜欢和机器交流。明知道是个机器，还“天猫精灵”“叮咚叮咚”“小爱同学”之类的叫个不停，是不是感觉自己好傻？

本文转自：https://blog.youkuaiyun.com/weixin_42082222/article/details/80529850

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。