- 博客(14)
- 收藏
- 关注
原创 【Debug记录】离散动作MADDPG,Value_loss收敛但是策略收敛效果不好
摘要:离散动作下的MADDPG算法存在策略收敛问题,主要原因是Actor梯度被离散采样操作截断。解决方案包括:1)采用Gumbel-Softmax保持梯度传导或改用REINFORCE形式;2)首次训练时硬同步目标网络;3)修正折扣回报计算中的终止步奖励问题;4)添加熵正则防止策略过早收敛;5)调整更新频率和缓冲区阈值;6)优化价值标准化流程;7)保持目标动作采样。这些改进能有效提升离散动作场景下的策略学习效果。
2025-08-14 16:02:47
869
原创 【环境配置记录】WIN11 GPU4080 配置 pytorch环境(MAPPO)
(可选的)三、安装其他强化学习相关库。二、安装pytorch。
2025-07-17 14:17:28
290
原创 【调参学习】强化学习训练曲线含义以及典型走向
在强化学习训练过程中,往往会记录并可视化多种度量指标(),用来评估算法的学习进展和网络的更新情况。
2025-03-12 15:57:01
3816
1
原创 【Ros基础操作】Ros1通讯机制Topic学习记录
2.在src目录下创建名为learn_topic的功能包,依赖文件为std_msgs rospy roscpp。上面的语句只在当前teminal生效,或者可运行以下语句将setup.bash写进bashrc中。编译将在工作空间目录下自动生成devel和build文件夹。在功能包文件夹下创建msg文件夹存放message定义文件。(名为learn_ros,需添加src源代码路径)运行以下语句查看功能包是否成功添加进环境变量。5.自定义message。
2024-12-25 15:30:15
215
原创 【MARL理论学习】多智能体强化学习中的Structural Credit Assignment问题
Structural Credit Assignment 专注于利用系统的结构特性,比如智能体之间的通信、协作网络或任务分解信息,来分配全局奖励,使每个智能体能够学习其对整体任务的具体贡献。Structural Credit Assignment 是 MARL 中的一项核心挑战,它通过分析系统结构和智能体之间的交互关系,解决了个体贡献模糊性的问题。有效的解决方法能够帮助智能体更快地学习到合理的策略,从而提升整体系统性能。
2024-12-07 10:30:55
1183
原创 Ubuntu20.04 安装ros noetic(ros1)保姆级教程
选择ubuntu版本为20.04,复制源代码。(用aptitude可解决依赖冲突问题)用清华源代码替换所有内容。方向键即可控制乌龟移动。
2024-11-07 23:16:25
1879
原创 ubuntu grub界面相关问题
1.确认无线网卡名称ip link查看网卡名称:wlo12.创建 Wi-Fi 配置文件添加以下内容network={3.链接wifi4. 获取 IP 地址5.尝试连接互联网(可尝试使用手机热点wifi)
2024-11-07 14:09:15
605
原创 强化学习中动作对数概率的作用
在强化学习中,**`action_log_prob`**(动作对数概率)的作用是帮助评估策略网络的表现,特别是在策略梯度方法(如 A2C、PPO、TRPO 等)中,它在优化策略和计算损失函数时至关重要。- **损失函数中的重要部分**:`action_log_prob` 在强化学习的损失函数中起着重要作用,特别是结合优势函数时,它帮助计算**策略梯度**(即:策略如何应该调整以获得更高的回报)。策略梯度的公式中通常涉及到对**动作概率**的导数计算,而计算对数概率的梯度比直接计算概率的梯度更稳定和高效。
2024-10-16 21:47:16
1349
1
原创 【环境配置记录】配置多智能体强化学习环境MAPPO,Ubuntu20.04 显卡4090
(注意:cuda=12.1,cuda版本需满足显卡驱动要求,4090要求11.8
2024-10-03 11:53:03
1058
原创 Ubuntu20.04显卡4090安装显卡驱动,Anaconda,git记录
原文链接:https://blog.youkuaiyun.com/ytusdc/article/details/132403852。实测该方法安装后无法查看nvidia-smi,可能是驱动程序未正确加载或存在与内核不兼容的问题。nouveau是Ubuntu自带的显卡驱动,但是针对核显,想安装独显需要禁用。1)创建文件,如果没有下载vim编辑器,将vim换成gedit即可。2)在文件中插入以下内容,将nouveau加入黑名单,默认不开启。法一(未成功):直接于"软件与更新“中安装推荐的版本。法二(成功):手动安装。
2024-10-01 14:34:51
1462
原创 ubuntu进入tty1命令行界面(无法正常启动图形化界面)
用aptitude安装:sudo aptitude install ubuntu-desktop。更新软件源:sudo apt update && sudo apt upgrade。下载aptitude:sudo apt-get install aptitude。2.tty1界面按ctrl+alt+F7若无法进入图形化界面,则考虑安装。1.ubuntu进入tty1命令行界面命令行出现四个菱形。成功安装,重启后即可正常进入图形化界面。运行:export LC_ALL=C。
2024-10-01 12:54:46
2881
原创 Ubuntu20.04常用软件下载
正在处理用于 desktop-file-utils (0.24-1ubuntu3) 的触发器 ...正在处理用于 gnome-menus (3.36.0-1ubuntu1) 的触发器 ...正在处理用于 hicolor-icon-theme (0.17-2) 的触发器 ...正在处理用于 mime-support (3.64ubuntu1) 的触发器 ...正在处理用于 dbus (1.12.16-2ubuntu2.3) 的触发器 ...运行:sudo apt-get install -f。
2024-09-30 17:07:45
1928
原创 安装Ubuntu20.04双系统记录
启动后sudo gedit /etc/default/grub中,在“quiet splash”中添加nomodeset。可将引导项选为和windows boot manager相同的引导项,将所有可用磁盘空间均分配给根挂载节点(\)可将GRUB_DEFAULT=0修改为“windows项顺序-1”以将默认启动项设置为windows。按F10可进入安装过程,进入图形化桌面后再点击桌面install图标,正常开始安装程序。进入grub界面内,选取ubuntu20.04,安装完成后点击确认重启,拔u盘。
2024-09-30 13:08:37
961
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅