【机器学习】机器学习的基本分类-强化学习-REINFORCE 算法

REINFORCE 算法

REINFORCE 是一种基于策略梯度的强化学习算法,直接通过采样环境中的轨迹来优化策略。它是策略梯度方法的基础实现,具有简单直观的优点。


核心思想

  1. 目标函数

    • 最大化策略的期望回报:

                              ​​​​​​​         J(\theta) = \mathbb{E}_{\pi_\theta} \left[ \sum_{t=0}^T \gamma^t R_t \right]
    • 通过优化策略参数 θ,使累积回报 J(θ) 最大化。
  2. 策略梯度定理

    • 策略梯度为:

              ​​​​​​​        ​​​​​​​         \nabla_\theta J(\theta) = \mathbb{E}_{\pi_\theta} \left[ \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot G_t \right]
    • 其中 G_t = \sum_{k=t}^T \gamma^{k-t} R_k​ 是从时间步 t 开始的累积回报。
  3. 梯度估计

    • 使用采样方法估计梯度:

              ​​​​​​​        
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值