5、基于表格值的智能体:强化学习核心概念与算法解析

基于表格值的智能体:强化学习核心概念与算法解析

在强化学习领域,基于表格值的智能体是一类重要的智能体模型。下面我们将详细探讨相关的核心概念和算法。

1. 折扣因子γ

在强化学习中,任务主要分为两类:连续长时间运行的任务和阶段性任务(有结束状态的任务)。

对于连续且长时间运行的任务,为了更重视当前信息,对未来遥远的奖励进行折扣是合理的。在马尔可夫决策过程(MDP)中,使用折扣因子γ来降低远期奖励的影响。很多连续任务都会采用折扣策略,即γ ≠ 1。

而在阶段性问题中,γ通常是无关紧要的。例如超市购物和下棋这类阶段性任务,折扣就没有意义,此时γ = 1。

2. 策略π

策略函数π在强化学习中处于核心地位。它回答了在状态s下应如何选择不同动作a的问题,动作与状态紧密相关。MDP优化的核心问题就是如何选择动作。

策略π是一个条件概率分布,它为每个可能的状态指定了每个可能动作的概率。函数π将状态空间映射到动作空间上的概率分布:
π : S → p(A)
其中,p(A)可以是离散或连续的概率分布。对于该分布中的特定概率(密度),我们记为π(a|s)。

例如,在离散状态空间和离散动作空间中,我们可以用表格来明确存储策略:
| s | π(a=up|s) | π(a=down|s) | π(a=left|s) | π(a=right|s) |
| — | — | — | — | — |
| 1 | 0.2 | 0.8 | 0.0 | 0.0 |
| 2 | 0.0 | 0.0 | 0.0 | 1.0 |
| 3 | 0.7 |

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值