人机交互-语音交互方法综述

本文详细介绍了智能语音交互的四个关键技术模块:自动语音识别(ASR)、自然语言理解(NLU)、自然语言生成(NLG)和文字转语音(TTS)。ASR通过声学模型和语言模型将语音转为文本,NLU理解用户意图,NLG生成自然语言响应,TTS将文本转化为语音。这些技术协同工作,实现与用户的高效语音交互。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

上图展示了智能语音的界面架构,从中可以看出,语音交互所涉及的技术模块有 4 个部分,如下图所示:

首先,通过应用自动语音识别技术听到用户说的话,然后应用自然语言理解来分析语句的含义,随后用自然语言生成对话结果,最后应用文字转语音技术将结果播放给用户,完成与用户的语音交互。下面分别介绍这几种技术:

 

自动语音识别:Automatic Speech Recognition, ASR


ASR是通过声学模型和语言模型,将人的语音识别为文本的技术。

上图是标准语音系统的组成元素。声学概率的评估是由声音前端和一个声学模型处理的,而词组序列的概率评估则是由一个语言模型处理的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值