17、强化学习：策略梯度与离线策略算法解析

最新推荐文章于 2025-09-06 12:59:45 发布

prometheus9mon

最新推荐文章于 2025-09-06 12:59:45 发布

阅读量38

点赞数

CC 4.0 BY-SA版权

分类专栏：强化学习重塑工业智能文章标签：强化学习策略梯度离线策略算法

本文链接：https://blog.youkuaiyun.com/prometheus9mon/article/details/151054222

强化学习重塑工业智能专栏收录该内容

42 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习：策略梯度与离线策略算法解析

1. 策略模型基础与购物车环境实验

在策略建模方面，为了简便，我们采用为每个动作配备逻辑函数的线性策略。需要注意的是，softmax函数并不适用，因为它会将所有动作的总价值归一化为1。同时，我们把价值函数也建模为线性函数，不过实际上也可以使用更复杂的模型。

顾客购买产品的倾向和其个人特征密切相关。例如，有婴儿的顾客更可能购买婴儿用品；素食者不太可能订购肉类产品；年轻人和老年人购买的产品往往不同。这些特征属于潜在特征，无法直接从顾客的行为中观察到。所以，线性模型在实际测试中可能表现不佳，因为它只学习顾客购买产品的频率，而忽略了购买原因。为了解决这个问题，可以减少潜在特征的数量，或者创建显式特征。此外，线性模型缺乏记忆能力。比如，当大量购买洗衣粉后，短期内通常不会再购买，除非遇到特殊情况。但线性权重可能会因为之前的大量购买而继续推荐洗衣粉。为了让模型学习到人们不同的购买频率，需要引入记忆机制。一种简单的方法是将之前的订单信息纳入状态，就像DQN在Atari环境中的应用，研究发现四个帧的像素信息足以作为记忆的代理。更高级的解决方案包括使用递归和长短期记忆神经元等有状态的神经网络。

在购物车环境实验中，为了简化问题，我们采用线性实现，并让智能体只购买最受欢迎的产品。在第一个实验中，我们将数据集限制为单个顾客，选择该顾客最受欢迎的15种产品，并对智能体进行50个周期的训练。同时，设置一个随机订购产品的智能体作为参考。该顾客在71次订单中购买了358件热门产品，因此最高可能奖励为358。实验结果显示，智能体的最高奖励为57，表明它购买的产品是顾客真正想要的，但远低于最高可能奖励。随机智能体的表现一直很差，因为它反复订购顾客不需要的产品。