【强化学习】Actor-Critic算法

最新推荐文章于 2024-12-24 09:43:31 发布

原创

最新推荐文章于 2024-12-24 09:43:31 发布 · 1.3k 阅读

·

17

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #php #开发语言

最近读论文看到了强化学习中的Actor-Critic算法。因此了解一下这方面的知识，并记录下来，以防忘记。文章中部分内容也借鉴了其他优秀的博主。

文章目录

一、简介
二、策略梯度法（Policy Gradient）
三、Q-Learning
四、Actor-Critic 算法

一、简介

Actor-Critic 算法是一种综合了策略迭代和价值迭代的集成算法。Actor是利用策略梯度算法实现，Critic使用时序差分实现。Actor-Critic 算法的组成部分为：

Actor（策略网络）：Actor是策略函数 $π_θ(s)$ ，是一个神经网络，它负责在给定状态下选择动作，输出每个动作的概率分布。该网络的训练目标是最大化累计回报的期望。

Critic（价值网络）：Critic是值函数 $V_π(s)$ ，也是一个神经网络，它估计给定状态的价值（状态值）或某个特定动作的价值（动作值）。

二、策略梯度法（Policy Gradient）

策略梯度方法的核心思想是直接优化策略，而不是通过估计价值函数间接优化策略。
具体推导可参考这篇文章：【详解+推导！！】Policy Gradient 策略梯度法

策略梯度法的主要过程是：

初始化一个策略网络 $θ$
用这个策略网络进行 $N$ 次游戏，产生 $N$ 个 $τ$
利用这 $N$ 个 $τ$ 进行梯度上升，调整策略网络的参数：
再如此重复2、3步。

三、Q-Learning

Q-learning 是一种无模型的、基于价值的强化学习算法，旨在通过学习 Q 值函数来找到最优策略。Q-learning 不需要环境的模型（即不知道状态转移概率），它通过与环境交互获得奖励信息来进行学习。

具体推导可参考这篇文章：Ｑ Learning概念、更新、代码实现，文章讲得很直白易懂。

大致过程如下：
在这里插入图片描述

四、Actor-Critic 算法

具体可以看这篇文章，我认为比较好懂：【深度强化学习】(4) Actor-Critic 模型解析，附Pytorch完整代码

Actor网络的优化目标如下：
$L_{actor} = \frac{1}{N}\sum_{i}^Nlogπ_*(s_t,a_t)(G_t-V(s_t))$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。