59、强化学习：从策略梯度到马尔可夫决策过程

最新推荐文章于 2025-11-03 16:13:29 发布

脑补型产品

最新推荐文章于 2025-11-03 16:13:29 发布

阅读量11

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习实战精华解读文章标签：强化学习策略梯度马尔可夫决策过程

本文链接：https://blog.youkuaiyun.com/mongodb5scout/article/details/154944149

机器学习实战精华解读专栏收录该内容

75 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习：从策略梯度到马尔可夫决策过程

1. 构建神经网络策略

在强化学习中，我们可以使用 tf.keras 来构建神经网络策略。以下是构建该策略的代码：

import tensorflow as tf
from tensorflow import keras
n_inputs = 4 # == env.observation_space.shape[0]
model = keras.models.Sequential([
    keras.layers.Dense(5, activation="elu", input_shape=[n_inputs]),
    keras.layers.Dense(1, activation="sigmoid"),
])

上述代码中，导入必要的库后，使用简单的顺序模型定义了策略网络。输入数量是观察空间的大小（在 CartPole 环境中为 4），由于问题简单，我们只设置了五个隐藏单元。最后，我们希望输出一个单一的概率（向左移动的概率），因此使用了一个具有 sigmoid 激活函数的输出神经元。如果有两个以上的可能动作，则每个动作对应一个输出神经元，并使用 softmax 激活函数。