对话系统技术:从基础到实践应用
1. 深度强化学习在对话生成中的应用
很多人都好奇机器如何针对各种问题生成多样化的答案。传统的seq2seq模型存在缺陷,常常只能给出“我不知道”这样的通用回复,且生成话语时未考虑如何进行良好对话。良好对话需要对对话质量有前瞻性的认知,这有助于用户达成目标。“良好”的概念较为抽象,通常根据对话目标来定义,比如目标导向的对话有明确目标,闲聊则以趣味性来衡量。
将目标导向对话和基于seq2seq的生成相结合,强化学习能发挥作用。机器每次给出回复可视为执行一个特定动作,一系列动作能确保通过对话最终实现目标。基于探索与利用的强化学习中,机器会根据用户定义的前瞻性奖励来学习生成最佳回复,该奖励与当前回复实现最终目标的可能性直接相关。与典型的基于seq2seq的模型相比,基于强化学习的模型表现更好,能生成更多样化的回复,而非局限于通用默认回复。
下面是一个简单的对比表格:
| 模型类型 | 回复多样性 | 实现目标能力 |
| ---- | ---- | ---- |
| 典型seq2seq模型 | 低,常为通用回复 | 弱 |
| 基于强化学习的模型 | 高,多样化回复 | 强 |
2. 人工介入学习过程
此前讨论的是机器在无人干预情况下生成答案。若人类在机器学习过程中进行干预,根据回复的正确与否给予奖励或惩罚,可提升其性能。这些奖惩作为反馈信息作用于模型。
回答自然语言查询通常有三个步骤:理解查询、执行动作、回复话语。在此过程中,机器在多种场景下可能需要人工干预,例如问题超出聊天机器人范围、采取的动作不正确或对查询理解有误。这种人类干预机器学习过程的方式
超级会员免费看
订阅专栏 解锁全文
18万+

被折叠的 条评论
为什么被折叠?



