23、对话系统技术：从基础到实践应用

最新推荐文章于 2025-10-01 09:10:55 发布

pytorchlight8

最新推荐文章于 2025-10-01 09:10:55 发布

阅读量40

点赞数

CC 4.0 BY-SA版权

分类专栏： NLP实战指南：从理论到应用文章标签：对话系统深度强化学习人工介入学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/pytorchlight8/article/details/151093526

NLP实战指南：从理论到应用专栏收录该内容

37 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

对话系统技术：从基础到实践应用

1. 深度强化学习在对话生成中的应用

很多人都好奇机器如何针对各种问题生成多样化的答案。传统的seq2seq模型存在缺陷，常常只能给出“我不知道”这样的通用回复，且生成话语时未考虑如何进行良好对话。良好对话需要对对话质量有前瞻性的认知，这有助于用户达成目标。“良好”的概念较为抽象，通常根据对话目标来定义，比如目标导向的对话有明确目标，闲聊则以趣味性来衡量。

将目标导向对话和基于seq2seq的生成相结合，强化学习能发挥作用。机器每次给出回复可视为执行一个特定动作，一系列动作能确保通过对话最终实现目标。基于探索与利用的强化学习中，机器会根据用户定义的前瞻性奖励来学习生成最佳回复，该奖励与当前回复实现最终目标的可能性直接相关。与典型的基于seq2seq的模型相比，基于强化学习的模型表现更好，能生成更多样化的回复，而非局限于通用默认回复。

下面是一个简单的对比表格：
| 模型类型 | 回复多样性 | 实现目标能力 |
| ---- | ---- | ---- |
| 典型seq2seq模型 | 低，常为通用回复 | 弱 |
| 基于强化学习的模型 | 高，多样化回复 | 强 |

2. 人工介入学习过程

此前讨论的是机器在无人干预情况下生成答案。若人类在机器学习过程中进行干预，根据回复的正确与否给予奖励或惩罚，可提升其性能。这些奖惩作为反馈信息作用于模型。

回答自然语言查询通常有三个步骤：理解查询、执行动作、回复话语。在此过程中，机器在多种场景下可能需要人工干预，例如问题超出聊天机器人范围、采取的动作不正确或对查询理解有误。这种人类干预机器学习过程的方式

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。