语音交互的用户体验

本文探讨了良好语音交互体验的构成要素,分析了包括音频采集、传输、处理及播放等关键环节。介绍了2Step、One-shot及短时免唤醒模式等常见交互方式,并列举了智能设备控制、情感对话及个人助手等应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这里写图片描述

突发奇想,抛出问题

今天突然想到这个问题。

到底怎么样的体验才是好的语音交互体验?这个问题对于语音技术开发人员可能想的很少,尤其是当前语音技术处于一个时代的风口浪尖的年代,作为从业者,每天面对者五花八门的技术需求,我们缺乏时间思考什么才是好的,合适的语音交互体验,我们疲于应对客户需求,寄希望于客户需要的就是终端用户需要的, 被动的手忙脚乱,但是,事实上,语音交互设计到的技术链条很长,语音技术提供商所面对的客户,他们对语音技术的了解可能仅局限于链条上末端的几个技术节点,而要想有一个良好的体验,任何一个节点未得到很好的设计,最后呈现在最终客户面前的,就是一个糟糕的产品,这也就是我们熟悉的木桶理论。

所以,究竟用户需要什么样的语音交互体验呢,就目前来看,我们还没有找到一个比较漂亮的答案。

现在呢

交互方式

实现语音交互的几个要素:

  • 音频采集设备(Microphone)
  • 音频传输媒介 (Bluetooth,WIFI,I2S…)
  • 音频数据处理中心(MCU, DSP,CPU, NPU, GPU …)
  • 音频播放设备(Speaker)

要想深入这个问题,这边先了解下当前智能设备普遍的语音交互方式。

  • 2 Step
    最为普遍的交互方式:
  1. 唤醒
  2. 对话
  • One-shot
    所谓one-shot,即可以将唤醒和对话同时完成,即唤醒+对话一次性说完,随即反馈结果

  • 短时免唤醒模式
    google assistant 目前引入了短时免唤醒模式,即一次唤醒之后的一段时间内,可以于google assistant 进行连续对话,而不需要每次停顿后再进行唤醒。进一步提升了交互体验,减少了频繁唤醒的繁琐流程。

应用场景

业界一直在探讨语音交互是继鼠标键盘,触控后第三代的人机交互技术,但是就目前看来,还远远没有达到替代先辈技术的程度,当下的语音交互需求主要停留在部分替换的初期交互阶段,主要有以下一些应用场景:

  • 智能设备的控制

    • 电视机端语音控制替换遥控器控制
    • 手机的语音低功耗待机唤醒
  • 情感对话

    • 微软小冰微信聊天模式
    • siri 调戏
  • 个人助手

    • siri 日程设置
    • 天猫精灵音乐播放,闹钟设置

我们真正需要什么

就目前来讲,语音交互的真正完美的用户体验,业界还没有找到一个明确的答案,换句话说,没有给出一个让用户可以长期停留,实现轻度依赖的方案。

从语音交互的要素可以看出,我们首先需要一个录音设备,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值