自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 强化学习在复杂调度问题中的常见陷阱与改进思路

本文总结了强化学习在资源调度和决策优化中的几个常见问题及改进方案。常见问题包括智能体策略与直觉不符、状态和奖励未归一化、使用启发式数据导致外推误差等。改进思路包括在奖励函数中显式引入代价差异、进行状态和奖励归一化、采用模仿学习预训练或保守Q学习等。文章指出,强化学习在调度问题中的难点主要在于状态设计和奖励定义,而非算法本身,合理的归一化和奖励设置是确保训练稳定和策略有效的关键。

2025-09-09 22:42:58 728

原创 强化学习入门:从零开始实现Dueling DQN

在之前的文章中,已经依次介绍了并通过gymnasium中的环境从零开始实现了智能体的训练与测试。本文将继续这一系列,聚焦于,它是对 DQN 的进一步改进,主要解决 DQN 在价值估计上的冗余与模糊问题。

2025-09-07 11:16:05 2143

原创 强化学习入门:从零开始实现DDQN

在上一篇文章中,我们已经完整介绍了CartPole环境、DQN的理论背景以及实现流程。本篇文章将在此基础上,进一步介绍DQN的缺点,并通过的来解决这些问题,最终训练出一个更加稳定和可靠的CartPole智能体。

2025-09-06 18:23:50 1155

原创 强化学习入门:从零开始实现DQN

本文选择 Gymnasium 库中的 CartPole 环境作为学习案例,演示如何用 DQN 从理论到实现训练一个能将杆子保持直立的智能体。

2025-09-04 21:32:23 1228

原创 强化学习DQN解决网格世界时Loss锯齿上升

在使用解决网格世界问题时,loss出现“锯齿上升:先涨后跌、峰值不断抬高”的现象。怎么排查?

2025-09-02 12:41:48 651

原创 KKT定理和对偶问题

对偶问题即在所有满足。

2025-09-01 22:47:47 682

原创 强化学习入门:从零开始实现Q-learning

本文介绍如何使用 Gymnasium 的 FrozenLake 环境来复现经典的网格世界问题,并用 Q-learning 算法求解,讨论 ε-greedy 策略及参数对结果的影响,同时给出相应代码。

2025-08-31 17:08:19 2557

原创 幺模矩阵与整数最优性特性

整数规划模型(IP)的一般形式min⁡c⊤xs.t.Ax≤bs.t.x∈Z≥0n& \min\;\le\;b,\\​minc⊤xs.t.Ax≤bs.t.x∈Z≥0n​​其中A∈Zm×nA∈Zm×nb∈Zmb∈Zmc∈Rnc∈Rn。对应的线性松弛(LP‐relaxation)即将“x∈Z≥0nx∈Z≥0n​”放宽为“x∈R≥0nx。

2025-08-30 22:48:15 1066

原创 强化学习公式速览

马尔可夫过程和马尔可夫决策过程的区别:当马尔可夫决策过程中的策略确定下来了,马尔可夫决策过程就退化为马尔可夫过程。状态值:vπ(s)=E[Gt∣St=s]=E[Rt+1∣St=s]+γE[Gt+1∣St=s]v_{\pi}(s)=E[G_t | S_t = s] = E\left[R_{t+1}|S_t = s\right] + \gamma E\left[G_{t+1}|S_t = s\right]vπ​(s)=E[Gt​∣St​=s]=E[Rt+1​∣St​=s]+γE[Gt+1​∣St​=s]贝

2025-08-29 00:01:16 1238

原创 弱对偶性证明

弱对偶性证明

2025-08-28 06:58:27 397

原创 拉格朗日对偶推导

拉格朗日对偶形式推导过程

2025-08-28 06:55:06 747

原创 LSTM长短期记忆网络

先回顾下RNN。

2025-08-27 12:56:19 2327

原创 拉格朗日函数的等式约束项惩罚机制分析

在标准拉格朗日函数中,等式约束的乘子νj\nu_jνj​没有符号限制,因此当违反约束(hjx≠0hj​x0)时,项νjhjxνj​hj​x不一定立即成为惩罚项。然而,通过优化过程(尤其是拉格朗日对偶和乘子更新规则),νj\nu_jνj​νj\nu_jνj​的符号与hjxh_j(x)hj​x的符号一致(正hjxh_j(x)hj​x对应正νj\nu_jνj​,负hjxh_j(x)hj​。

2025-08-26 22:01:10 506

原创 RNN循环神经网络

本文对比了MLP(多层感知机)和RNN(循环神经网络)的结构差异。MLP通过单隐藏层处理输入数据,使用激活函数计算隐藏层输出$\boldsymbol{H}$,再通过线性层得到输出$\boldsymbol{O}$。而RNN在MLP基础上引入了时间维度,隐藏状态$\boldsymbol{H_t}$不仅依赖当前输入$\boldsymbol{X_t}$,还结合前一时间步的隐藏状态$\boldsymbol{H_{t-1}}$,通过权重矩阵$\boldsymbol{W_{hh}}$实现时序信息传递,使网络具有记忆功能,

2025-08-26 01:45:10 1060

原创 运筹经典问题--集合包装、覆盖、划分问题

问题类型目标函数约束条件形式解释集合覆盖最小化∑xj\sum x_j∑xj​$\sum x_j \geq 1 $ (每点至少覆盖一次)资源节省,实现全覆盖集合包装最大化∑xj\sum x_j∑xj​∑xj≤1∑xj​≤1(每点至多覆盖一次)互不重叠选择最多集合集合分割最小化(或忽略)∑xj\sum x_j∑xj​∑xj1∑xj​1(每点恰好一次)精确分配,每点唯一归属。

2025-08-23 21:47:47 1034

原创 深度强化学习Dueling DQN

本文介绍了 Dueling DQN对传统 DQN 的改进。传统 DQN 存在状态价值与动作价值混淆、重复学习的问题,而 Dueling DQN 将 Q 值分解为 状态价值函数 V(s) 与 动作优势函数 A(s,a)。该结构减少状态特征冗余学习,强化动作差异表达,并在环境变化时表现出更强鲁棒性,是强化学习中更高效的价值估计方法。

2025-08-19 15:45:25 935

原创 强化学习Off-Policy

Off-policy 方法(如 Q-learning)的有效性源于的数学性质和的条件。,只要行为策略能覆盖所有可能的状态-动作对。

2025-08-19 14:11:21 925

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除