加油小强ang-优快云博客

原创对于多智能体深度强化学习的理解想看的帖子

https://zhuanlan.zhihu.com/p/693582342

2025-02-19 01:37:51 334

原创强化学习——实战

梯度计算通常由深度学习框架自动处理，你不需要自己编写梯度计算代码。优化器用于调整模型参数，帮助最小化损失函数或最大化目标函数，通常是架构的一部分。你有使用的框架或算法吗？我可以为你提供更具体的示例或解释。

2025-02-13 12:38:18 440

当数据包进入交换机时，交换机查找流表以确认是否有流表项匹配，若有流表项匹配成功，则执行该流表项指定的操作(如修改数据包);ps：一个相近概念，NFV（网络功能虚拟化）的目标是将传统的网络功能（如路由、负载平衡、防火墙等）从专用硬件中解耦出来，并在标准的服务器硬件上以软件形式实现这些功能。当业务进入传统路由器时，路由器会查找路由表中是否有对应的主机，如有，按路由表转发，如无，按设定丢弃，或泛洪给其他交换机，等待返回结果，更新路由表后再进行转发。传统的交换机，即做路由计算，又负责数据包的转发。

2025-01-11 00:04:30 1657

原创 MAPPO代码应用到自己的项目

我用的是离散环境，因此选择DiscreteActionEnv()，链接进去，EnvCore()，就是我们需要替换的环境。里面有reset和step两个方法，step方法我们自己改写。环境配置 make_train_env（训练环境），make_eval_env（评估环境）参数配置 get_config() 需要我们改成自己需要的参数。入口程序是train，我把train复制了一下。作者B站视频讲解链接。

2025-01-08 22:04:09 637

原创强化学习-值函数计算方法，值迭代和策略梯度等

蒙特卡洛：基于样本的方法。通过做实验，统计平均约等于真实的平均回报值。缺点是需要等待实验做完才能计算值函数。时间差分：自举的思想，通过后一时刻的值，更新现在的值。可以实现在当下时刻就能计算值。DP动态规划，需要已知环境模型。因为知道了模型（转移概率），所以不需要做实验。Nbootstrap：n步的时间差分，介于蒙特卡洛和时间差分之间。值迭代vs策略迭代vs策略梯度........

2025-01-07 19:21:46 406

原创深度强化学习做光网络资源分配-动作数量动态变化

以其可以自动学习特征和强大的拟合能力的特点，已经被应用于各个领域。对于一个标准化的强化学习，动作空间的数量应该是确定的。但是也有很多场景，候选动作的数量是动态变化的，譬如光网络中的选路，举个例子，如果将当前所在节点视为状态，如果有两个节点和它相连，那下一跳的候选动作数是2，转移到新状态后，如果有三个节点和它相连，候选动作数又变成了3。

2024-12-31 12:06:56 1950

原创多智能体强化学习笔记-1219

如何在不同智能体贡献不同的情况下实现鼓励高智能体，又不失去低贡献智能体的积极性。不是，环境是环境，这里的观测更像是S在整体环境下的状态是O。在MARL中，将整个多智能体系统，视为一个决策主体，之间优化价值函数或者状态-行为值函数。智能体无法获得完整的环境状态信息，只能通过不完全的局部观测进行决策。即在协作多智能体任务中，由于非协作智能体带来的惩罚超过协作智能体带来的奖励，协作智能体会认为其选择的协作动作为错误动作，导致多智能体最终收敛在次优联合策略。A:决策主体，为所有参与决策的多智能体集合。

2024-12-19 16:29:40 1670

原创进程间的常见通信方式

同一设备进程间的常见通信方式

2024-12-18 21:05:12 138

qq_47431663的博客