- 博客(13)
- 收藏
- 关注
原创 DDPG Pytorch(莫烦python学习笔记)
DDPG使用确定性策略 actor输出的是确定的动作 而不是动作的概率。DDPG使用AC架构 结合了DQN的双网络 + 经验回放的优势。
2025-04-06 19:47:48
188
原创 Actor-Critic pytorch(莫烦python学习笔记)
相比于PG,actor-critic可以实现单步更新 通过critic网络来判断每一步走的好不好 而不是要等回合结束后看总收获。学习了actor-critic的代码和原理 并改写为pytorch版本。
2025-04-06 13:23:48
157
原创 Policy Gradient策略梯度 pytorch(莫烦python学习笔记)
如果执行了好的动作 就增加这个动作被再次选取的概率 如果执行了坏的动作就减少,这个过程通过反向传播更新策略函数的梯度来完成(本质是梯度上升)策略梯度与值函数方法的不同之处是摒弃了q值 而是去学习一个概率密度函数pi。衡量好坏的标准是这次动作后到回合结束获取的奖励值(减去基线并标准化)
2025-04-05 17:18:10
109
原创 Dueling DQN pytorch(莫烦python学习笔记)
Dueling DQN是将Deep Q Network的输出分为状态价值和动作优势来表示 通过解耦增强学习能力。代码如下 参考莫烦python代码。
2025-04-05 17:11:49
144
原创 Prioritized Experience Replay(pytorch)(莫烦python学习笔记)
学习了如何使用优先经验回放 并用pytorch写了一遍。
2025-04-04 15:49:41
104
原创 ROS2编写launch文件
1.在xx_ws/src/pkg下创建 launch/launch.py。先按照链接博客的方法将所有文件的工作空间预设为自动source。2.在package.xml添加依赖。3.在setup.py添加路径。
2025-04-02 00:16:08
182
原创 Double DQN pytorch(莫烦python学习笔记)
2.更新了env环境为v1,并把其中的reward标准化改了(新版v1reward的范围是-16.27-1)学习莫烦的强化学习课 改写了一个pytorch版本的。3.改动了部分超参数使训练效果更好。1.改为pytorch版本。
2025-03-30 20:00:24
156
原创 ros多代碼在同一個功能包內的情況
rgblimp_ws/src/sac/sac/sac_ros.py(同級還有sac.sac_straight_xoz_frfl )要注意代碼的導入將不再是同級導入。則導入的起點是第一個sac。
2025-03-07 14:24:57
102
原创 创建一个ros2功能包的全流程
值得注意的是 这里的--node-name 是可选参数 如果选用的话会创建一个名为my_node的可执行文件 这个文件在src/my_package/my_package 目录下。其实不是创建了一个节点 而是创建了一个可执行文件。需要修改package.xml 和 setup.py。4.进入my_package目录 包含以下文件。2.如果没有工作空间 需要创建并进入工作空间。在package.xml中添加需要的依赖项。在这个文件里的节点取名与此无关。:定义了可执行文件的入口点。学完总是忘 记录一下。
2024-12-24 18:23:43
335
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人