自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_49784378的博客

原创【强化学习】确定性策略梯度算法DPG与DDPG

本文介绍了确定性策略梯度方法（DPG/DDPG）及其实现。DPG通过确定性策略直接输出连续动作值，与随机策略不同。DDPG在DPG基础上结合深度网络，采用软更新机制更新目标网络。文章详细说明了网络结构（Actor-Critic）、更新公式、off-policy特性以及行为策略的探索方法，并提供了完整的DDPG代码实现和在OpenAI Gym环境中的测试示例。该方法通过添加噪声进行探索，适用于连续动作空间问题。

2025-08-23 19:42:39 959

原创【强化学习】Actor-Critic与A2C算法的理解与代码实现

Actor-Critic是一种结合策略梯度和值函数的强化学习方法，其中Actor负责输出动作概率分布，Critic评估状态价值。A2C算法引入优势函数(Advantage Function)改进Critic部分，通过TD方法计算优势值。相比On-policy方法，Off-Policy Actor-Critic使用重要性采样技术，支持经验回放以复用历史数据。代码实现展示了共享特征层的网络结构，包含策略头和价值头分别输出动作概率和状态估值。实验在CartPole环境中验证了算法的有效性，包括On-policy的

2025-08-22 17:19:25 928

原创【强化学习】策略梯度算法-REINFORCE

策略梯度算法通过直接优化策略来最大化期望回报，核心是对目标函数求梯度进行参数更新。REINFORCE是最基础的蒙特卡洛策略梯度算法，利用轨迹采样估计梯度。相比值函数方法（如Q-learning），策略梯度更适合连续动作空间，但样本效率较低。基线技巧通过引入状态价值函数作为基准来减少梯度方差，提升训练稳定性。算法实现包含策略网络输出动作概率分布，并通过回报加权对数概率进行策略更新。实验表明REINFORCE在CartPole等环境能有效学习，但需配合基线等技巧优化性能。

2025-08-21 20:44:37 903

原创【强化学习】从Q-learning到DQN的直观理解与代码

本文介绍了使用函数近似方法解决强化学习中的状态空间问题，重点分析了DQN算法。主要内容包括：1）函数近似的必要性，即解决连续状态空间、高维状态存储和泛化能力问题；2）DQN算法核心思想，通过神经网络近似Q函数，结合经验回放和目标网络提高稳定性；3）DQN与表格Q-learning的区别；4）DQN算法的PyTorch实现，包括Q网络结构、经验回放缓冲区和训练过程。实验结果表明，DQN能有效处理连续状态空间问题，在OpenAI Gym环境中表现出色。

2025-08-20 17:38:43 1112

原创【强化学习】SARSA 与 Q-learning：公式理解与手撕代码

本文对比了强化学习中Sarsa和Q-learning两种时序差分算法的原理与实现。通过公式推导和Python代码实现，在FrozenLake环境中测试发现：1）Q-learning采用off-policy方式，通过选取下一状态最优动作更新Q值，收敛速度更快（10000 episodes）；2）Sarsa采用on-policy方式，基于当前策略选择动作，需要更多训练（100000 episodes）。实验验证了Q-learning在收敛效率上的优势，同时展示了两种算法在状态价值估计上的差异。

2025-08-19 19:38:47 788

原创 ubuntu20.04内置扬声器没有声音，但外接耳机音箱正常的解决方案

解决在双系统中重装ubuntu20.04后出现内置扬声器没有声音的问题，但是外接的耳机和音箱均能正常播放的问题。

2024-08-15 16:45:43 1416

原创【LADRC】对自抗扰算法的理解及公式推导（附代码）

LADRC优势在于其不依赖于系统的精确数学模型，其思想为通过线性扩张状态观测器（LESO）来实时估计和补偿系统中的扰动和不确定性，将系统转变为一个串联积分型后进行控制，而LADRC相比于ADRC，引入了带宽的概念，减少了要调整的参数数量和调整难度。

2024-05-23 23:17:43 7570 4

空空如也

stm32当PWM占空比小于50的时候驱动编码器电机不转

2022-04-18

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除