- 博客(17)
- 收藏
- 关注
原创 强化学习在复杂调度问题中的常见陷阱与改进思路
本文总结了强化学习在资源调度和决策优化中的几个常见问题及改进方案。常见问题包括智能体策略与直觉不符、状态和奖励未归一化、使用启发式数据导致外推误差等。改进思路包括在奖励函数中显式引入代价差异、进行状态和奖励归一化、采用模仿学习预训练或保守Q学习等。文章指出,强化学习在调度问题中的难点主要在于状态设计和奖励定义,而非算法本身,合理的归一化和奖励设置是确保训练稳定和策略有效的关键。
2025-09-09 22:42:58
728
原创 强化学习入门:从零开始实现Dueling DQN
在之前的文章中,已经依次介绍了并通过gymnasium中的环境从零开始实现了智能体的训练与测试。本文将继续这一系列,聚焦于,它是对 DQN 的进一步改进,主要解决 DQN 在价值估计上的冗余与模糊问题。
2025-09-07 11:16:05
2143
原创 强化学习入门:从零开始实现DDQN
在上一篇文章中,我们已经完整介绍了CartPole环境、DQN的理论背景以及实现流程。本篇文章将在此基础上,进一步介绍DQN的缺点,并通过的来解决这些问题,最终训练出一个更加稳定和可靠的CartPole智能体。
2025-09-06 18:23:50
1155
原创 强化学习入门:从零开始实现DQN
本文选择 Gymnasium 库中的 CartPole 环境作为学习案例,演示如何用 DQN 从理论到实现训练一个能将杆子保持直立的智能体。
2025-09-04 21:32:23
1228
原创 强化学习入门:从零开始实现Q-learning
本文介绍如何使用 Gymnasium 的 FrozenLake 环境来复现经典的网格世界问题,并用 Q-learning 算法求解,讨论 ε-greedy 策略及参数对结果的影响,同时给出相应代码。
2025-08-31 17:08:19
2557
原创 幺模矩阵与整数最优性特性
整数规划模型(IP)的一般形式minc⊤xs.t.Ax≤bs.t.x∈Z≥0n& \min\;\le\;b,\\minc⊤xs.t.Ax≤bs.t.x∈Z≥0n其中A∈Zm×nA∈Zm×nb∈Zmb∈Zmc∈Rnc∈Rn。对应的线性松弛(LP‐relaxation)即将“x∈Z≥0nx∈Z≥0n”放宽为“x∈R≥0nx。
2025-08-30 22:48:15
1066
原创 强化学习公式速览
马尔可夫过程和马尔可夫决策过程的区别:当马尔可夫决策过程中的策略确定下来了,马尔可夫决策过程就退化为马尔可夫过程。状态值:vπ(s)=E[Gt∣St=s]=E[Rt+1∣St=s]+γE[Gt+1∣St=s]v_{\pi}(s)=E[G_t | S_t = s] = E\left[R_{t+1}|S_t = s\right] + \gamma E\left[G_{t+1}|S_t = s\right]vπ(s)=E[Gt∣St=s]=E[Rt+1∣St=s]+γE[Gt+1∣St=s]贝
2025-08-29 00:01:16
1238
原创 拉格朗日函数的等式约束项惩罚机制分析
在标准拉格朗日函数中,等式约束的乘子νj\nu_jνj没有符号限制,因此当违反约束(hjx≠0hjx0)时,项νjhjxνjhjx不一定立即成为惩罚项。然而,通过优化过程(尤其是拉格朗日对偶和乘子更新规则),νj\nu_jνjνj\nu_jνj的符号与hjxh_j(x)hjx的符号一致(正hjxh_j(x)hjx对应正νj\nu_jνj,负hjxh_j(x)hj。
2025-08-26 22:01:10
506
原创 RNN循环神经网络
本文对比了MLP(多层感知机)和RNN(循环神经网络)的结构差异。MLP通过单隐藏层处理输入数据,使用激活函数计算隐藏层输出$\boldsymbol{H}$,再通过线性层得到输出$\boldsymbol{O}$。而RNN在MLP基础上引入了时间维度,隐藏状态$\boldsymbol{H_t}$不仅依赖当前输入$\boldsymbol{X_t}$,还结合前一时间步的隐藏状态$\boldsymbol{H_{t-1}}$,通过权重矩阵$\boldsymbol{W_{hh}}$实现时序信息传递,使网络具有记忆功能,
2025-08-26 01:45:10
1060
原创 运筹经典问题--集合包装、覆盖、划分问题
问题类型目标函数约束条件形式解释集合覆盖最小化∑xj\sum x_j∑xj$\sum x_j \geq 1 $ (每点至少覆盖一次)资源节省,实现全覆盖集合包装最大化∑xj\sum x_j∑xj∑xj≤1∑xj≤1(每点至多覆盖一次)互不重叠选择最多集合集合分割最小化(或忽略)∑xj\sum x_j∑xj∑xj1∑xj1(每点恰好一次)精确分配,每点唯一归属。
2025-08-23 21:47:47
1034
原创 深度强化学习Dueling DQN
本文介绍了 Dueling DQN对传统 DQN 的改进。传统 DQN 存在状态价值与动作价值混淆、重复学习的问题,而 Dueling DQN 将 Q 值分解为 状态价值函数 V(s) 与 动作优势函数 A(s,a)。该结构减少状态特征冗余学习,强化动作差异表达,并在环境变化时表现出更强鲁棒性,是强化学习中更高效的价值估计方法。
2025-08-19 15:45:25
935
原创 强化学习Off-Policy
Off-policy 方法(如 Q-learning)的有效性源于的数学性质和的条件。,只要行为策略能覆盖所有可能的状态-动作对。
2025-08-19 14:11:21
925
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅