强化学习在对话系统中的应用与评估
1. 从MDP到POMDP
在使用马尔可夫决策过程(MDP)对对话进行建模时,存在一个主要问题,即MDP假设系统状态的内容是完全可观测的。然而,对话交互中存在各种不确定性,不能假定系统的信念状态是正确的。例如,由于语音识别和自然语言理解的不确定性,系统无法确定是否正确解释了用户的意图。即使语音识别和自然语言理解完美,用户的目标和意图也可能存在模糊性和不确定性。
因此,部分可观测马尔可夫决策过程(POMDP)比标准的MDP模型更受青睐,因为它可以表示系统可能处于的所有不同状态的概率分布,尽管其状态空间更大,会导致可处理性问题。
POMDP可以定义为一个元组 $\langle S, A_s, T, R, O, Z, \lambda, b_0 \rangle$,其中:
- $S$、$A_s$、$T$、$R$ 和 $\lambda$ 的定义与MDP相同;
- $O$ 是系统可以从外界接收到的一组可能的观测值;
- $Z$ 是在给定状态和机器动作的情况下,特定观测值的概率 $P(o_0|s_0a)$;
- $b_0$ 是初始信念状态 $b_0(s)$,其中 $b$ 表示完整对话的摘要。
POMDP的操作与MDP类似,但POMDP的状态是不可观测的,系统的信念状态是可能状态的分布。在每个时间步,系统处于一个不可观测的状态 $s_t$,具有信念状态 $b_t$,$b_t(s_t)$ 表示处于状态 $s_t$ 的概率。基于有噪声的观测值 $o_t$(用户的话语)和 $b_t$(系统当前的信念状态),系统选择一个动作 $a_t$,接收一个奖励 $r_t$,并转移到另一个状态 $s_{t + 1}$,同时更
超级会员免费看
订阅专栏 解锁全文
22万+

被折叠的 条评论
为什么被折叠?



