- 博客(5)
- 收藏
- 关注
原创 Q-learning算法(笔记)
若动作是连续(无限)的,神经网络的输入是状态和动作,然后输出一个标量,表示在状态下采取动作能获得的价值。问题1,如果要用时序差分算法来准确地估计策略的状态价值函数,我们需要用极大量的样本来进行更新。参考价值迭代章节,我们已经提出了解决方案:我们不再试图用用大量样本得到收敛地状态价值函数(或用状态转移概率求解状态价值),而是用argmax Q(s,a)作为状态价值,并更新策略。由于“自举”,即用神经网络的估测再次更新神经网络,以及求max的规则,神经网络会高估q(s,a)的值,而且会高估会不断累积。
2024-07-22 14:01:56
1355
原创 动态规划算法(笔记)
提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
2024-07-21 16:24:21
792
原创 马尔可夫决策过程(笔记)
即,t+1时刻的状态只与t时刻状态有关。二者关系:执行动作a后,有即时奖励r(s,a),由概率转移方程及vΠ(s`)得到后续状态的期望回报。在一个马尔可夫奖励过程中,从第t时刻状态开始,直到终止状态时,所有奖励的衰减之和称为回报Gt。状态价值函数:引入动作。动作价值函数:QΠ(s,a)从状态s出发执行动作a得到的期望回报。t时刻动作a价值:即时奖励+折扣因子 * 新状态的状态价值期望。一个状态的期望汇报为该状态价值,所有状态的价值组成价值函数。t时刻状态价值:t时刻状态所有可能的qΠ(s,a)之和。
2024-07-21 15:40:39
820
原创 强化学习策略:探索与利用(笔记)
有一个拥有K根拉杆的老虎机,拉动每一根拉杆都对应一个关于奖励的概率分布。尝试过程中,我们需要在“探索拉杆的获奖概率”和“根据经验选择奖励期望最高的拉杆”进行权衡。也就是exploration or exploition(探索可能或利用经验)。
2024-07-21 14:59:38
193
原创 强化学习笔记
智能体在环境的一个状态下做出一个动作决策,使得环境发生改变并返回相应的奖励。智能体有三种关键要素:感知、决策和奖励。感知:智能体通过传感器等感知环境。决策:智能体根据当前状态选择采取的动作。奖励:环境给予的反馈。最大化累积奖励是智能体提升策略的目标,也是衡量策略好坏的目标。
2024-07-21 14:40:20
232
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人