基于强化学习与POMDP的对话系统研究
在对话系统的研究领域,如何提升系统性能、应对复杂场景是关键问题。下面将介绍基于强化学习的用户信念感知对话系统以及可扩展的POMDP混合对话系统的相关研究。
基于强化学习的用户信念感知对话系统
- 评估设置
- 选取了6名不同的受试者(2名女性和4名男性,平均年龄约25岁),针对四种提出的系统配置进行实验。每个配置与受试者进行10次对话,总共进行了240次对话。
- 其中30%的对话涉及FB(False Belief)任务。
- 用户在每次交互结束后,通过在线问卷对系统的任务完成情况进行评估。
- 实验结果
- 系统性能指标 :以平均累积折扣奖励(Avg.R)、平均对话长度(以系统轮数计,Length)和平均成功率(SuccR)来衡量系统在经典(CLASSIC)、虚假信念(FB)和所有(ALL)任务上的性能,具体数据如下表所示:
| TASK | HDC - Avg.R | HDC - Length | HDC - SuccR | BA - HDC - Avg.R | BA - HDC - Length | BA - HDC - SuccR | LEARNT - Avg.R | LEARNT - Length | LEARNT - SuccR | BA - LEARNT - Avg.R | BA - LEARNT - Length | BA - LEARNT - SuccR | <
- 系统性能指标 :以平均累积折扣奖励(Avg.R)、平均对话长度(以系统轮数计,Length)和平均成功率(SuccR)来衡量系统在经典(CLASSIC)、虚假信念(FB)和所有(ALL)任务上的性能,具体数据如下表所示:
超级会员免费看
订阅专栏 解锁全文
37

被折叠的 条评论
为什么被折叠?



