自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 对于多智能体深度强化学习的理解想看的帖子

https://zhuanlan.zhihu.com/p/693582342

2025-02-19 01:37:51 334

原创 强化学习——实战

梯度计算通常由深度学习框架自动处理,你不需要自己编写梯度计算代码。优化器用于调整模型参数,帮助最小化损失函数或最大化目标函数,通常是架构的一部分。你有使用的框架或算法吗?我可以为你提供更具体的示例或解释。

2025-02-13 12:38:18 440

原创 光网络中的基础知识-SDN交换机

当数据包进入交换机时,交换机查找流表以确认是否有流表项匹配,若有流表项匹配成功,则执行该流表项指定的操作(如修改数据包);ps:一个相近概念,NFV(网络功能虚拟化)的目标是将传统的网络功能(如路由、负载平衡、防火墙等)从专用硬件中解耦出来,并在标准的服务器硬件上以软件形式实现这些功能。当业务进入传统路由器时,路由器会查找路由表中是否有对应的主机,如有,按路由表转发,如无,按设定丢弃,或泛洪给其他交换机,等待返回结果,更新路由表后再进行转发。传统的交换机,即做路由计算,又负责数据包的转发。

2025-01-11 00:04:30 1657

原创 MAPPO代码应用到自己的项目

我用的是离散环境,因此选择DiscreteActionEnv(),链接进去,EnvCore(),就是我们需要替换的环境。里面有reset和step两个方法,step方法我们自己改写。环境配置 make_train_env(训练环境),make_eval_env(评估环境)参数配置 get_config() 需要我们改成自己需要的参数。入口程序是train,我把train复制了一下。作者B站视频讲解链接。

2025-01-08 22:04:09 637

原创 强化学习-值函数计算方法,值迭代和策略梯度等

蒙特卡洛:基于样本的方法。通过做实验,统计平均约等于真实的平均回报值。缺点是需要等待实验做完才能计算值函数。时间差分:自举的思想,通过后一时刻的值,更新现在的值。可以实现在当下时刻就能计算值。DP动态规划,需要已知环境模型。因为知道了模型(转移概率),所以不需要做实验。Nbootstrap:n步的时间差分,介于蒙特卡洛和时间差分之间。值迭代vs策略迭代vs策略梯度........

2025-01-07 19:21:46 406

原创 深度强化学习做光网络资源分配-动作数量动态变化

以其可以自动学习特征和强大的拟合能力的特点,已经被应用于各个领域。对于一个标准化的强化学习,动作空间的数量应该是确定的。但是也有很多场景,候选动作的数量是动态变化的,譬如光网络中的选路,举个例子,如果将当前所在节点视为状态,如果有两个节点和它相连,那下一跳的候选动作数是2,转移到新状态后,如果有三个节点和它相连,候选动作数又变成了3。

2024-12-31 12:06:56 1950

原创 多智能体强化学习笔记-1219

如何在不同智能体贡献不同的情况下实现鼓励高智能体,又不失去低贡献智能体的积极性。不是,环境是环境,这里的观测更像是S在整体环境下的状态是O。在MARL中,将整个多智能体系统,视为一个决策主体,之间优化价值函数或者状态-行为值函数。智能体无法获得完整的环境状态信息,只能通过不完全的局部观测进行决策。即在协作多智能体任务中,由于非协作智能体带来的惩罚超过协作智能体带来的奖励,协作智能体会认为其选择的协作动作为错误动作,导致多智能体最终收敛在次优联合策略。A:决策主体,为所有参与决策的多智能体集合。

2024-12-19 16:29:40 1670

原创 进程间的常见通信方式

同一设备进程间的常见通信方式

2024-12-18 21:05:12 138

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除