1. 策略网络(Policy Network):
策略网络是一个神经网络,用于建模智能体的策略,即在给定状态下选择动作的概率分布。
-
是在策略网络下,在状态
下选择动作
的概率,其中
是策略网络的参数。
-
表示策略网络的输出概率。
2. 价值函数网络(Value Function Network):
价值函数网络是一个神经网络,用于估计在给定状态或采取某个动作后能够获得的期望累积回报。
- 动作价值函数(Action Value Function): 估计在给定状
本文介绍了策略网络,它利用神经网络预测智能体在给定状态下的动作概率,以及价值函数网络,包括动作价值函数和状态价值函数,它们用于评估决策的长期价值。这些网络共同驱动智能体的学习和策略优化。
1. 策略网络(Policy Network):
策略网络是一个神经网络,用于建模智能体的策略,即在给定状态下选择动作的概率分布。
2. 价值函数网络(Value Function Network):
价值函数网络是一个神经网络,用于估计在给定状态或采取某个动作后能够获得的期望累积回报。
2715
1725

被折叠的 条评论
为什么被折叠?