江湖危险快点跑-优快云博客

原创 DDPG Pytorch（莫烦python学习笔记）

DDPG使用确定性策略 actor输出的是确定的动作而不是动作的概率。DDPG使用AC架构结合了DQN的双网络 + 经验回放的优势。

2025-04-06 19:47:48 188

原创 Actor-Critic pytorch（莫烦python学习笔记）

相比于PG，actor-critic可以实现单步更新通过critic网络来判断每一步走的好不好而不是要等回合结束后看总收获。学习了actor-critic的代码和原理并改写为pytorch版本。

2025-04-06 13:23:48 157

原创 Policy Gradient策略梯度 pytorch（莫烦python学习笔记）

如果执行了好的动作就增加这个动作被再次选取的概率如果执行了坏的动作就减少，这个过程通过反向传播更新策略函数的梯度来完成（本质是梯度上升）策略梯度与值函数方法的不同之处是摒弃了q值而是去学习一个概率密度函数pi。衡量好坏的标准是这次动作后到回合结束获取的奖励值（减去基线并标准化）

2025-04-05 17:18:10 109

原创 Dueling DQN pytorch（莫烦python学习笔记）

Dueling DQN是将Deep Q Network的输出分为状态价值和动作优势来表示通过解耦增强学习能力。代码如下参考莫烦python代码。

2025-04-05 17:11:49 144

原创 DQN pytorch (莫烦python学习笔记)

学习了莫烦python的DQN代码走迷宫。并自己用pytorch写了一遍。

2025-04-04 15:58:25 102

原创 Prioritized Experience Replay（pytorch）（莫烦python学习笔记）

学习了如何使用优先经验回放并用pytorch写了一遍。

2025-04-04 15:49:41 104

原创 ROS2编写launch文件

1.在xx_ws/src/pkg下创建 launch/launch.py。先按照链接博客的方法将所有文件的工作空间预设为自动source。2.在package.xml添加依赖。3.在setup.py添加路径。

2025-04-02 00:16:08 182

原创 ROS2不想反复source怎么办

1.将工作空间的路径添加到bashrc中。

2025-03-31 21:48:05 102

原创 Double DQN pytorch（莫烦python学习笔记）

2.更新了env环境为v1，并把其中的reward标准化改了（新版v1reward的范围是-16.27-1）学习莫烦的强化学习课改写了一个pytorch版本的。3.改动了部分超参数使训练效果更好。1.改为pytorch版本。

2025-03-30 20:00:24 156

原创 ros多代碼在同一個功能包內的情況

rgblimp_ws/src/sac/sac/sac_ros.py(同級還有sac.sac_straight_xoz_frfl )要注意代碼的導入將不再是同級導入。則導入的起點是第一個sac。

2025-03-07 14:24:57 102

值得注意的是这里的--node-name 是可选参数如果选用的话会创建一个名为my_node的可执行文件这个文件在src/my_package/my_package 目录下。其实不是创建了一个节点而是创建了一个可执行文件。需要修改package.xml 和 setup.py。4.进入my_package目录包含以下文件。2.如果没有工作空间需要创建并进入工作空间。在package.xml中添加需要的依赖项。在这个文件里的节点取名与此无关。：定义了可执行文件的入口点。学完总是忘记录一下。

2024-12-24 18:23:43 335

原创 ANSI转义序列

ANSI 颜色代码通常分为前景色（文本颜色）和背景色。是一种用于在终端中控制输出文本格式的方法。作用是输出黄色的加粗文本。

2024-12-23 18:29:39 260

qq_69571666的博客