- 博客(7)
- 收藏
- 关注
原创 PyTorch实战:基于CleanRL实现解耦的PPO世界模型(解决梯度干扰问题)
本文记录了在一个基于 CleanRL 的 PPO 算法中引入自监督“世界模型”(World Model)辅助任务的全过程。在实验中,我发现传统的“共享编码器”架构会导致严重的梯度干扰(Gradient Interference),致使模型在简单环境(CartPole-v1)中发生特征坍塌。通过采用完全解耦(Fully Decoupled)架构,成功解决了该问题,实现了高得分的任务收敛(Score: 419)与有效的表征学习。
2025-12-01 23:31:52
915
原创 洛谷P4001 狼抓兔子
题目来源:ICPC-Beijing 2006题目算法:网络流,最小割特别注意:因为这道题每条路都是双向路径,所以在建路径时需要不论正向边还是反向边都要把初始流量定义为初始值,也就是这条边的权值,也就是每一条路径只需要正反各建边一次。然后就是网络流和最小割的算法了。
2025-04-29 00:00:21
218
原创 关于费用流(最小费用最大流)的解法
求解最小费用最大流,和求解普通的最大流的解法有些不同,要知道,每一条边的费用都等于这条边的流量和费用相乘之积,每条边上的费用也不尽相同,也就是说,在解决最小费用最大流问题时,我们可以把这个问题理解为是在解决一个最短路问题。其实就是在网络流的基础上,每一条边除了有容量以外,另外又多了一个新的性质,也就是费用,也就是说,这条边上,每流过一单位的流量,就要有多花费这样一个费用。比如一条边的容量是5,费用是10,那么流过1单位容量,费用就是1*10,流过2单位容量,费用就是2*10。
2025-02-02 09:50:21
859
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅