自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 DDPG Pytorch(莫烦python学习笔记)

DDPG使用确定性策略 actor输出的是确定的动作 而不是动作的概率。DDPG使用AC架构 结合了DQN的双网络 + 经验回放的优势。

2025-04-06 19:47:48 188

原创 Actor-Critic pytorch(莫烦python学习笔记)

相比于PG,actor-critic可以实现单步更新 通过critic网络来判断每一步走的好不好 而不是要等回合结束后看总收获。学习了actor-critic的代码和原理 并改写为pytorch版本。

2025-04-06 13:23:48 157

原创 Policy Gradient策略梯度 pytorch(莫烦python学习笔记)

如果执行了好的动作 就增加这个动作被再次选取的概率 如果执行了坏的动作就减少,这个过程通过反向传播更新策略函数的梯度来完成(本质是梯度上升)策略梯度与值函数方法的不同之处是摒弃了q值 而是去学习一个概率密度函数pi。衡量好坏的标准是这次动作后到回合结束获取的奖励值(减去基线并标准化)

2025-04-05 17:18:10 109

原创 Dueling DQN pytorch(莫烦python学习笔记)

Dueling DQN是将Deep Q Network的输出分为状态价值和动作优势来表示 通过解耦增强学习能力。代码如下 参考莫烦python代码。

2025-04-05 17:11:49 144

原创 DQN pytorch (莫烦python学习笔记)

学习了莫烦python的DQN代码 走迷宫。并自己用pytorch写了一遍。

2025-04-04 15:58:25 102

原创 Prioritized Experience Replay(pytorch)(莫烦python学习笔记)

学习了如何使用优先经验回放 并用pytorch写了一遍。

2025-04-04 15:49:41 104

原创 ROS2编写launch文件

1.在xx_ws/src/pkg下创建 launch/launch.py。先按照链接博客的方法将所有文件的工作空间预设为自动source。2.在package.xml添加依赖。3.在setup.py添加路径。

2025-04-02 00:16:08 182

原创 ROS2不想反复source怎么办

1.将工作空间的路径添加到bashrc中。

2025-03-31 21:48:05 102

原创 Double DQN pytorch(莫烦python学习笔记)

2.更新了env环境为v1,并把其中的reward标准化改了(新版v1reward的范围是-16.27-1)学习莫烦的强化学习课 改写了一个pytorch版本的。3.改动了部分超参数使训练效果更好。1.改为pytorch版本。

2025-03-30 20:00:24 156

原创 micro_ros

【代码】micro_ros。

2025-03-07 14:46:39 109

原创 ros多代碼在同一個功能包內的情況

rgblimp_ws/src/sac/sac/sac_ros.py(同級還有sac.sac_straight_xoz_frfl )要注意代碼的導入將不再是同級導入。則導入的起點是第一個sac。

2025-03-07 14:24:57 102

原创 创建一个ros2功能包的全流程

值得注意的是 这里的--node-name 是可选参数 如果选用的话会创建一个名为my_node的可执行文件 这个文件在src/my_package/my_package 目录下。其实不是创建了一个节点 而是创建了一个可执行文件。需要修改package.xml 和 setup.py。4.进入my_package目录 包含以下文件。2.如果没有工作空间 需要创建并进入工作空间。在package.xml中添加需要的依赖项。在这个文件里的节点取名与此无关。:定义了可执行文件的入口点。学完总是忘 记录一下。

2024-12-24 18:23:43 335

原创 ANSI转义序列

ANSI 颜色代码通常分为前景色(文本颜色)和背景色。是一种用于在终端中控制输出文本格式的方法。作用是输出黄色的加粗文本。

2024-12-23 18:29:39 260

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除