在强化学习中,状态访问分布(State Visitation Probability)是衡量在策略
下,状态
长期访问概率。公式如下:
其中:
是在策略
下,智能体在时刻
访问状态
的概率。
是折扣因子,通常
,
是归一化因子。
归一化因子的作用是确保所有状态的访问概率之和为1。我们可以通过以下步骤来理解这一点:
首先,对所有状态求
的和,即:
又因为是时刻
状态
的概率,根据概率的基本性质,对于任意时刻
,所有状态的概率之和为1,即
所以
因此作为状态访问分布,满足所有状态的概率和为1的性质,
这个归一化因子起到了关键作用,它使得