突发奇想,抛出问题
今天突然想到这个问题。
到底怎么样的体验才是好的语音交互体验?这个问题对于语音技术开发人员可能想的很少,尤其是当前语音技术处于一个时代的风口浪尖的年代,作为从业者,每天面对者五花八门的技术需求,我们缺乏时间思考什么才是好的,合适的语音交互体验,我们疲于应对客户需求,寄希望于客户需要的就是终端用户需要的, 被动的手忙脚乱,但是,事实上,语音交互设计到的技术链条很长,语音技术提供商所面对的客户,他们对语音技术的了解可能仅局限于链条上末端的几个技术节点,而要想有一个良好的体验,任何一个节点未得到很好的设计,最后呈现在最终客户面前的,就是一个糟糕的产品,这也就是我们熟悉的木桶理论。
所以,究竟用户需要什么样的语音交互体验呢,就目前来看,我们还没有找到一个比较漂亮的答案。
现在呢
交互方式
实现语音交互的几个要素:
- 音频采集设备(Microphone)
- 音频传输媒介 (Bluetooth,WIFI,I2S…)
- 音频数据处理中心(MCU, DSP,CPU, NPU, GPU …)
- 音频播放设备(Speaker)
要想深入这个问题,这边先了解下当前智能设备普遍的语音交互方式。
- 2 Step
最为普遍的交互方式:
- 唤醒
- 对话
-
One-shot
所谓one-shot,即可以将唤醒和对话同时完成,即唤醒+对话一次性说完,随即反馈结果 -
短时免唤醒模式
google assistant 目前引入了短时免唤醒模式,即一次唤醒之后的一段时间内,可以于google assistant 进行连续对话,而不需要每次停顿后再进行唤醒。进一步提升了交互体验,减少了频繁唤醒的繁琐流程。
应用场景
业界一直在探讨语音交互是继鼠标键盘,触控后第三代的人机交互技术,但是就目前看来,还远远没有达到替代先辈技术的程度,当下的语音交互需求主要停留在部分替换的初期交互阶段,主要有以下一些应用场景:
-
智能设备的控制
- 电视机端语音控制替换遥控器控制
- 手机的语音低功耗待机唤醒
- …
-
情感对话
- 微软小冰微信聊天模式
- siri 调戏
- …
-
个人助手
- siri 日程设置
- 天猫精灵音乐播放,闹钟设置
- …
我们真正需要什么
就目前来讲,语音交互的真正完美的用户体验,业界还没有找到一个明确的答案,换句话说,没有给出一个让用户可以长期停留,实现轻度依赖的方案。
从语音交互的要素可以看出,我们首先需要一个录音设备,