10、强化学习在对话系统中的应用与评估

h0i1j2k3l

于 2025-08-21 12:54:34 发布

阅读量37

点赞数

CC 4.0 BY-SA版权

分类专栏：对话式AI的现在与未来文章标签：强化学习对话系统 POMDP

本文链接：https://blog.youkuaiyun.com/h0i1j2k3l/article/details/151090891

对话式AI的现在与未来专栏收录该内容

22 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习在对话系统中的应用与评估

1. 从MDP到POMDP

在使用马尔可夫决策过程（MDP）对对话进行建模时，存在一个主要问题，即MDP假设系统状态的内容是完全可观测的。然而，对话交互中存在各种不确定性，不能假定系统的信念状态是正确的。例如，由于语音识别和自然语言理解的不确定性，系统无法确定是否正确解释了用户的意图。即使语音识别和自然语言理解完美，用户的目标和意图也可能存在模糊性和不确定性。

因此，部分可观测马尔可夫决策过程（POMDP）比标准的MDP模型更受青睐，因为它可以表示系统可能处于的所有不同状态的概率分布，尽管其状态空间更大，会导致可处理性问题。

POMDP可以定义为一个元组 $\langle S, A_s, T, R, O, Z, \lambda, b_0 \rangle$，其中：
- $S$、$A_s$、$T$、$R$ 和 $\lambda$ 的定义与MDP相同；
- $O$ 是系统可以从外界接收到的一组可能的观测值；
- $Z$ 是在给定状态和机器动作的情况下，特定观测值的概率 $P(o_0|s_0a)$；
- $b_0$ 是初始信念状态 $b_0(s)$，其中 $b$ 表示完整对话的摘要。

POMDP的操作与MDP类似，但POMDP的状态是不可观测的，系统的信念状态是可能状态的分布。在每个时间步，系统处于一个不可观测的状态 $s_t$，具有信念状态 $b_t$，$b_t(s_t)$ 表示处于状态 $s_t$ 的概率。基于有噪声的观测值 $o_t$（用户的话语）和 $b_t$（系统当前的信念状态），系统选择一个动作 $a_t$，接收一个奖励 $r_t$，并转移到另一个状态 $s_{t + 1}$，同时更