全双工语音对话以及在智能硬件上的应用 --- 学习笔记

本文探讨了全双工语音交互的概念,旨在模拟人类间的自然对话体验,允许连续对话和机器人主动提问。同时,区分了面向任务和面向过程的对话系统,并深入讨论了技术细节,如边听边想的语音识别、节奏控制和内容池调度系统。此外,还提到了深度学习模型在处理语音识别错误中的优势以及如何通过预测回复时间提高交互人性化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、全双工交互 --- 类比的是 人们之间的交谈过程一样

     在一般的问答系统里面,问一句答一句,或者使用多轮交互,全双工交互希望可以达到的效果是类似人与人之间打电话一样,

不仅仅是一问一答,可能是用户说多句话,然后机器人回答一下;甚至机器人可以主动提问来帮助交互

2、面向任务的对话系统 VS 面向过程的对话系统

面向任务的对话系统 --- 将用户的query进行意图识别,然后划分为某个任务,针对性的来进行回答。

面向过程的对话系统 --- 将怎个对话过程全部记住,会记忆住前面的对话内容,来回答,甚至就是将某个人的回答收集在一起,分析他的性格、性别以及以往的兴趣爱好。

3、一些技术细节

边听边想,就是在开始进行语音识别的时候,就进行识别,用模型预估后面可能的话是什么,以及意图是什么,这样可以

减少做出反应的时间

节奏控制 --- 因为要做到人与人之间交互过程一样的效果,所以得控制好节奏,不可以中间停顿的时间太长;当时间合适的时候,要作出回复,或者进行对话引导

另外对话引导 --- 判断用户的话是不是具有很高的信息熵(回复的内容是不是有信息含量),来判断是不是应该给出一个新的话题出来。新的话题应该是 和 用户的兴趣 热门话题 以及 应该和前面的交谈内容应该有些关联 等多个维度

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值