- 博客(8)
- 收藏
- 关注
原创 强化学习——实战
梯度计算通常由深度学习框架自动处理,你不需要自己编写梯度计算代码。优化器用于调整模型参数,帮助最小化损失函数或最大化目标函数,通常是架构的一部分。你有使用的框架或算法吗?我可以为你提供更具体的示例或解释。
2025-02-13 12:38:18
440
原创 光网络中的基础知识-SDN交换机
当数据包进入交换机时,交换机查找流表以确认是否有流表项匹配,若有流表项匹配成功,则执行该流表项指定的操作(如修改数据包);ps:一个相近概念,NFV(网络功能虚拟化)的目标是将传统的网络功能(如路由、负载平衡、防火墙等)从专用硬件中解耦出来,并在标准的服务器硬件上以软件形式实现这些功能。当业务进入传统路由器时,路由器会查找路由表中是否有对应的主机,如有,按路由表转发,如无,按设定丢弃,或泛洪给其他交换机,等待返回结果,更新路由表后再进行转发。传统的交换机,即做路由计算,又负责数据包的转发。
2025-01-11 00:04:30
1657
原创 MAPPO代码应用到自己的项目
我用的是离散环境,因此选择DiscreteActionEnv(),链接进去,EnvCore(),就是我们需要替换的环境。里面有reset和step两个方法,step方法我们自己改写。环境配置 make_train_env(训练环境),make_eval_env(评估环境)参数配置 get_config() 需要我们改成自己需要的参数。入口程序是train,我把train复制了一下。作者B站视频讲解链接。
2025-01-08 22:04:09
637
原创 强化学习-值函数计算方法,值迭代和策略梯度等
蒙特卡洛:基于样本的方法。通过做实验,统计平均约等于真实的平均回报值。缺点是需要等待实验做完才能计算值函数。时间差分:自举的思想,通过后一时刻的值,更新现在的值。可以实现在当下时刻就能计算值。DP动态规划,需要已知环境模型。因为知道了模型(转移概率),所以不需要做实验。Nbootstrap:n步的时间差分,介于蒙特卡洛和时间差分之间。值迭代vs策略迭代vs策略梯度........
2025-01-07 19:21:46
406
原创 深度强化学习做光网络资源分配-动作数量动态变化
以其可以自动学习特征和强大的拟合能力的特点,已经被应用于各个领域。对于一个标准化的强化学习,动作空间的数量应该是确定的。但是也有很多场景,候选动作的数量是动态变化的,譬如光网络中的选路,举个例子,如果将当前所在节点视为状态,如果有两个节点和它相连,那下一跳的候选动作数是2,转移到新状态后,如果有三个节点和它相连,候选动作数又变成了3。
2024-12-31 12:06:56
1950
原创 多智能体强化学习笔记-1219
如何在不同智能体贡献不同的情况下实现鼓励高智能体,又不失去低贡献智能体的积极性。不是,环境是环境,这里的观测更像是S在整体环境下的状态是O。在MARL中,将整个多智能体系统,视为一个决策主体,之间优化价值函数或者状态-行为值函数。智能体无法获得完整的环境状态信息,只能通过不完全的局部观测进行决策。即在协作多智能体任务中,由于非协作智能体带来的惩罚超过协作智能体带来的奖励,协作智能体会认为其选择的协作动作为错误动作,导致多智能体最终收敛在次优联合策略。A:决策主体,为所有参与决策的多智能体集合。
2024-12-19 16:29:40
1670
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅