强化学习
文章平均质量分 91
个人的强化学习笔记,视频参考 “莫烦Python-强化学习”
烨川南
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习:Distributed PPO (DPPO) 学习笔记
DPPO = Distributed + Proximal Policy OptimizationDistributed:多个智能体并行训练Proximal:限制策略更新幅度,确保稳定性Policy Optimization:基于策略梯度的优化方法核心思想:多个智能体并行探索环境,共享经验,通过裁剪策略更新确保训练稳定原创 2025-07-07 09:52:21 · 1091 阅读 · 0 评论 -
强化学习:Proximal Policy Optimization(PPO)学习笔记
PPO(Proximal Policy Optimization)是一种用于优化策略网络的无模型强化学习算法,由OpenAI在2017年提出。它的主要目标是在不进行大量样本交互的情况下,高效地更新策略网络,同时避免策略更新过程中出现过大的策略变化,从而提高训练的稳定性和效率。PPO有两种主要的实现方式:基于KL散度惩罚(KL penalty)和裁剪代理目标(Clipped surrogate objective),本代码中使用的是裁剪代理目标的方法。原创 2025-07-07 09:50:32 · 962 阅读 · 0 评论 -
强化学习:Asynchronous Advantage Actor-Critic (A3C) 学习笔记
Asynchronous Advantage Actor-Critic (A3C) 是一种高效的分布式强化学习算法,通过并行训练多个智能体提高样本效率和训练稳定性。原创 2025-07-04 15:51:27 · 360 阅读 · 0 评论 -
强化学习:Deep Deterministic Policy Gradient (DDPG) 学习笔记
DDPG 是一种无模型、离线策略(off-policy)的 Actor-Critic 算法,专为连续动作空间设计。原创 2025-07-03 15:08:55 · 1039 阅读 · 0 评论 -
强化学习:Actor Critic 学习笔记
Actor Critic(演员-评论家)算法是强化学习中的经典策略梯度方法,通过结合策略网络(Actor)和值网络(Critic),平衡了样本效率和学习稳定性。原创 2025-07-02 17:12:48 · 1236 阅读 · 0 评论 -
强化学习:Policy Gradients 学习笔记
Policy Gradient(基于 Softmax 的策略梯度算法)是强化学习中的经典策略梯度方法,通过直接优化策略函数来最大化累积奖励。原创 2025-07-01 19:19:43 · 1788 阅读 · 0 评论 -
强化学习:Dueling DQN 学习笔记
Dueling DQN(竞争型深度 Q 网络)是 DQN 的重要改进,通过将 Q 值分解为状态价值函数(V)和优势函数(A),提高对状态价值和动作优势的建模能力。原创 2025-06-30 17:14:00 · 891 阅读 · 0 评论 -
强化学习:Prioritized Experience Replay 学习笔记
Prioritized Experience Replay(PER)是强化学习的智能记忆管理技术。它通过TD-error(预测误差) 评估经验价值,优先学习高误差样本。核心创新是SumTree数据结构,实现O(logN)高效抽样。结合重要性采样权重避免偏差,显著提升训练效率。原创 2025-06-26 09:47:50 · 1027 阅读 · 0 评论 -
强化学习:DQN (Deep Q-Network) 学习笔记
DQN(深度Q网络)将深度神经网络引入Q-learning,解决高维状态空间的维度灾难问题。其核心创新为:经验回放和目标网络。通过ε-贪婪策略平衡探索与利用,实现端到端学习。在Atari游戏中首次超越人类表现,奠定深度强化学习基石,但存在训练不稳定、高估偏差等局限。原创 2025-06-25 16:10:46 · 899 阅读 · 0 评论 -
强化学习:Double DQN 学习笔记
Double DQN 针对 DQN 的高估偏差问题提出改进。核心思想是解耦动作选择与价值评估。原创 2025-06-27 14:15:00 · 888 阅读 · 0 评论 -
强化学习:Sarsa、Sarsa(λ) 学习笔记
Sarsa 是在线策略强化学习算法,通过状态-动作对 (s,a,r,s',a') 更新 Q 值,与 Q-learning 区别在于更新时用实际选的下一个动作 a' 而非最大 Q 值动作,更保守。Sarsa(λ) 引入资格迹,使奖励影响之前状态-动作对。原创 2025-06-23 15:45:00 · 959 阅读 · 0 评论 -
强化学习:Q-learning 学习笔记
Q-learning是一种强化学习算法,旨在通过与环境交互让智能体学会最优决策策略。其核心在于学习Q值表,用于评估特定状态下采取某个动作的长期价值。原创 2025-06-21 14:30:00 · 1773 阅读 · 0 评论 -
强化学习简介
强化学习是机器学习分支,通过与环境交互试错学习,依奖励调整策略。算法分价值(如 Q 学习、DQN)、策略(如 Policy Gradients)、模型(Model-based)三类,可从环境理解、决策依据等维度分类。近年与深度学习结合,在游戏(如 AlphaGo)等领域应用广泛,学习不依赖特定模块,适合初学者掌握底层原理。原创 2025-06-20 14:32:51 · 761 阅读 · 0 评论
分享