- 博客(7)
- 问答 (1)
- 收藏
- 关注
原创 【强化学习】确定性策略梯度算法DPG与DDPG
本文介绍了确定性策略梯度方法(DPG/DDPG)及其实现。DPG通过确定性策略直接输出连续动作值,与随机策略不同。DDPG在DPG基础上结合深度网络,采用软更新机制更新目标网络。文章详细说明了网络结构(Actor-Critic)、更新公式、off-policy特性以及行为策略的探索方法,并提供了完整的DDPG代码实现和在OpenAI Gym环境中的测试示例。该方法通过添加噪声进行探索,适用于连续动作空间问题。
2025-08-23 19:42:39
959
原创 【强化学习】Actor-Critic与A2C算法的理解与代码实现
Actor-Critic是一种结合策略梯度和值函数的强化学习方法,其中Actor负责输出动作概率分布,Critic评估状态价值。A2C算法引入优势函数(Advantage Function)改进Critic部分,通过TD方法计算优势值。相比On-policy方法,Off-Policy Actor-Critic使用重要性采样技术,支持经验回放以复用历史数据。代码实现展示了共享特征层的网络结构,包含策略头和价值头分别输出动作概率和状态估值。实验在CartPole环境中验证了算法的有效性,包括On-policy的
2025-08-22 17:19:25
928
原创 【强化学习】策略梯度算法-REINFORCE
策略梯度算法通过直接优化策略来最大化期望回报,核心是对目标函数求梯度进行参数更新。REINFORCE是最基础的蒙特卡洛策略梯度算法,利用轨迹采样估计梯度。相比值函数方法(如Q-learning),策略梯度更适合连续动作空间,但样本效率较低。基线技巧通过引入状态价值函数作为基准来减少梯度方差,提升训练稳定性。算法实现包含策略网络输出动作概率分布,并通过回报加权对数概率进行策略更新。实验表明REINFORCE在CartPole等环境能有效学习,但需配合基线等技巧优化性能。
2025-08-21 20:44:37
903
原创 【强化学习】从Q-learning到DQN的直观理解与代码
本文介绍了使用函数近似方法解决强化学习中的状态空间问题,重点分析了DQN算法。主要内容包括:1)函数近似的必要性,即解决连续状态空间、高维状态存储和泛化能力问题;2)DQN算法核心思想,通过神经网络近似Q函数,结合经验回放和目标网络提高稳定性;3)DQN与表格Q-learning的区别;4)DQN算法的PyTorch实现,包括Q网络结构、经验回放缓冲区和训练过程。实验结果表明,DQN能有效处理连续状态空间问题,在OpenAI Gym环境中表现出色。
2025-08-20 17:38:43
1112
原创 【强化学习】SARSA 与 Q-learning:公式理解与手撕代码
本文对比了强化学习中Sarsa和Q-learning两种时序差分算法的原理与实现。通过公式推导和Python代码实现,在FrozenLake环境中测试发现:1)Q-learning采用off-policy方式,通过选取下一状态最优动作更新Q值,收敛速度更快(10000 episodes);2)Sarsa采用on-policy方式,基于当前策略选择动作,需要更多训练(100000 episodes)。实验验证了Q-learning在收敛效率上的优势,同时展示了两种算法在状态价值估计上的差异。
2025-08-19 19:38:47
788
原创 ubuntu20.04内置扬声器没有声音,但外接耳机音箱正常的解决方案
解决在双系统中重装ubuntu20.04后出现内置扬声器没有声音的问题,但是外接的耳机和音箱均能正常播放的问题。
2024-08-15 16:45:43
1416
原创 【LADRC】对自抗扰算法的理解及公式推导(附代码)
LADRC优势在于其不依赖于系统的精确数学模型,其思想为通过线性扩张状态观测器(LESO)来实时估计和补偿系统中的扰动和不确定性,将系统转变为一个串联积分型后进行控制,而LADRC相比于ADRC,引入了带宽的概念,减少了要调整的参数数量和调整难度。
2024-05-23 23:17:43
7570
4
空空如也
stm32当PWM占空比小于50的时候驱动编码器电机不转
2022-04-18
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅