帅小伙―苏-优快云博客

原创初学强化学习-Dueling DQN

利用采样的经验数据更新智能体的 Q 网络。即Dueling DQN算法更新时的target_q_net和q_net初始化是VAnet网络（包括隐藏层+优势函数/价值函数），而正常的DQN算法更新时的target_q_net和q_net初始化是Qnet网络（输入层+隐藏层+输出层）。而传统的 DQN 只会更新某个动作的 Q值，其他动作的 Q值就不会更新。在step函数中，与DQN算法不一样的区别是，Dueling DQN需要用到的是连续的动作区间。值得注意的是，DQN的网络结构是输入层+隐藏层+输出层。

2025-04-07 09:45:05 309

原创初学强化学习-DDQN

DQN的动作选择和Q值评估都是基于目标网络，导致最大化操作会偏向高估某些动作的Q值。2.经验回放存储转移样本：将每个交互的转移样本 (s,a,r,s′,done) 存入回放缓冲区。终止状态处理：若s′是终止状态（done=True），则Y=r。A[初始化主网络和目标网络] --> B[与环境交互收集样本]每隔C 步将主网络的参数复制到目标网络。E --> F[目标网络计算目标Q值]F --> G[计算损失并更新主网络]D --> E[主网络选择动作a’]G --> H[定期同步目标网络]

2025-04-06 16:18:10 305

原创初学强化学习-DQN

教程链接。

2025-04-01 16:03:50 786

原创强化学习- 动手写迷宫环境（maze env）状态及动作策略初步（及.gif保存）

视频链接：https://www.bilibili.com/video/BV1Ye411P7Sw/?

2025-02-26 10:06:07 1131

原创月球登录器的强化学习模型训练

可以发现形状里面有8个形参着陆器坐标（x,y），其线性速度(Vx,Vy)，它的角度，它的角速度，和两个布尔值表示每条腿是否与地面接触。根据官方文档https://www.gymlibrary.dev/environments/box2d/lunar_lander/而如果想要替换成PPO算法，只需要将A2C换成PPO。使用A2C算法训练模型。

2025-02-16 21:43:37 117

原创动手学深度学习---学习过程（第六章-卷积神经网络）

当 Δ=0 时，卷积操作在每个空间位置 (i,j) 上独立进行，且每个位置的输入 X (i,j,c)和输出 Y(i,j,k)之间的关系与全连接层的线性变换一致。相比之下，最大汇聚和平均汇聚的计算非常简单，只需取最大值或平均值。平均汇聚层：用于保留每个局部区域的总体分布信息，提供一种更平滑的特征表示，通常可以减少特征的空间尺寸，同时尽量保持特征的统计信息，受噪声影响较大。最大汇聚层：用于提取每个局部区域最显著的特征，对小的位置变化具有鲁棒性，可以一定程度上增加对输入数据的平移不变性，并且对噪声不敏感。

2025-02-11 11:54:04 1489

原创动手学深度学习---学习过程（第三章-线性神经网络）

这些方法能够有效地减少计算和存储的复杂性，帮助神经网络在高维和大规模数据集的情况下依然能够进行有效的优化。如果所有权重为零，所有神经元的梯度也会相同，这使得每个神经元的更新步伐相同，导致模型无法捕捉到多样的特征。因此，网络的每一层和每一个神经元将会表现得一样，最终无法学习到有用的特征表示。如果权重全都初始化为零，这种对称性就没有被打破，训练过程中的每个神经元将无法有不同的输出，导致模型无法有效区分输入数据的不同特征。自动微分可以用来学习模型的参数吗?练习6：尝试使用不同的学习率，观察损失函数值下降的快慢。

2025-01-14 11:51:21 531

原创 torch.cumsum(input,dim=?）详解

相信很多初学者对这个函数充满了疑惑，本次我们对其深入分析。

2025-01-05 11:23:56 372

原创动手学深度学习---学习过程（第二章--预备知识）

记录自己的学习过程花书链接-https://zh.d2l.ai/chapter_preliminaries/ndarray.html学习历程上述代码均需要在虚拟环境下运行安装成功之后，直接运行jupyter notebook即可。可以看到已经有我的虚拟环境名字myenv了。

2025-01-03 09:57:24 295 1

原创强化学习算法---马尔可夫，蒙特卡洛，动态规划，时序差分

通过模拟多个回合（从状态 𝑠0到终止状态sT的完整轨迹）并计算从状态 st到终止状态的累积回报来更新状态价值函数或动作价值函数。而时序差分是根据下图公式更新的(其中Rt+1是在时间步 t 后获得的即时奖励，γV(st+1) 是对下一个状态的价值函数的估计。其中，易知蒙特卡洛用的是以往的的实际回报（必须等待回合结束），然而时序差分可以理解为未来的估计值（当前的奖励和下一状态的估计值）P(s ′∣s,a) 是状态转移概率，即在状态 s 下采取动作 a 转移到状态 𝑠′ 的概率。

2024-12-30 15:20:44 1584

原创初学强化学习-Sarsa

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档。

2024-12-27 10:44:18 164

原创初学强化学习-QLearning

强化学习QLearning

2024-12-26 20:23:38 295

m0_65472749的博客