23、对话系统技术:从基础到实践应用

对话系统技术:从基础到实践应用

1. 深度强化学习在对话生成中的应用

很多人都好奇机器如何针对各种问题生成多样化的答案。传统的seq2seq模型存在缺陷,常常只能给出“我不知道”这样的通用回复,且生成话语时未考虑如何进行良好对话。良好对话需要对对话质量有前瞻性的认知,这有助于用户达成目标。“良好”的概念较为抽象,通常根据对话目标来定义,比如目标导向的对话有明确目标,闲聊则以趣味性来衡量。

将目标导向对话和基于seq2seq的生成相结合,强化学习能发挥作用。机器每次给出回复可视为执行一个特定动作,一系列动作能确保通过对话最终实现目标。基于探索与利用的强化学习中,机器会根据用户定义的前瞻性奖励来学习生成最佳回复,该奖励与当前回复实现最终目标的可能性直接相关。与典型的基于seq2seq的模型相比,基于强化学习的模型表现更好,能生成更多样化的回复,而非局限于通用默认回复。

下面是一个简单的对比表格:
| 模型类型 | 回复多样性 | 实现目标能力 |
| ---- | ---- | ---- |
| 典型seq2seq模型 | 低,常为通用回复 | 弱 |
| 基于强化学习的模型 | 高,多样化回复 | 强 |

2. 人工介入学习过程

此前讨论的是机器在无人干预情况下生成答案。若人类在机器学习过程中进行干预,根据回复的正确与否给予奖励或惩罚,可提升其性能。这些奖惩作为反馈信息作用于模型。

回答自然语言查询通常有三个步骤:理解查询、执行动作、回复话语。在此过程中,机器在多种场景下可能需要人工干预,例如问题超出聊天机器人范围、采取的动作不正确或对查询理解有误。这种人类干预机器学习过程的方式

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值