joshchen215-优快云博客

原创强化学习在复杂调度问题中的常见陷阱与改进思路

本文总结了强化学习在资源调度和决策优化中的几个常见问题及改进方案。常见问题包括智能体策略与直觉不符、状态和奖励未归一化、使用启发式数据导致外推误差等。改进思路包括在奖励函数中显式引入代价差异、进行状态和奖励归一化、采用模仿学习预训练或保守Q学习等。文章指出，强化学习在调度问题中的难点主要在于状态设计和奖励定义，而非算法本身，合理的归一化和奖励设置是确保训练稳定和策略有效的关键。

2025-09-09 22:42:58 728

原创强化学习入门：从零开始实现Dueling DQN

在之前的文章中，已经依次介绍了并通过gymnasium中的环境从零开始实现了智能体的训练与测试。本文将继续这一系列，聚焦于，它是对 DQN 的进一步改进，主要解决 DQN 在价值估计上的冗余与模糊问题。

2025-09-07 11:16:05 2143

原创强化学习入门：从零开始实现DDQN

在上一篇文章中，我们已经完整介绍了CartPole环境、DQN的理论背景以及实现流程。本篇文章将在此基础上，进一步介绍DQN的缺点，并通过的来解决这些问题，最终训练出一个更加稳定和可靠的CartPole智能体。

2025-09-06 18:23:50 1155

原创强化学习入门：从零开始实现DQN

本文选择 Gymnasium 库中的 CartPole 环境作为学习案例，演示如何用 DQN 从理论到实现训练一个能将杆子保持直立的智能体。

2025-09-04 21:32:23 1228

原创强化学习DQN解决网格世界时Loss锯齿上升

在使用解决网格世界问题时，loss出现“锯齿上升：先涨后跌、峰值不断抬高”的现象。怎么排查？

2025-09-02 12:41:48 651

原创强化学习入门：从零开始实现Q-learning

本文介绍如何使用 Gymnasium 的 FrozenLake 环境来复现经典的网格世界问题，并用 Q-learning 算法求解，讨论 ε-greedy 策略及参数对结果的影响，同时给出相应代码。

2025-08-31 17:08:19 2557

原创幺模矩阵与整数最优性特性

整数规划模型（IP）的一般形式min⁡c⊤xs.t.Ax≤bs.t.x∈Z≥0n& \min\;\le\;b,\\minc⊤xs.t.Ax≤bs.t.x∈Z≥0n其中A∈Zm×nA∈Zm×nb∈Zmb∈Zmc∈Rnc∈Rn。对应的线性松弛（LP‐relaxation）即将“x∈Z≥0nx∈Z≥0n”放宽为“x∈R≥0nx。

2025-08-30 22:48:15 1066

马尔可夫过程和马尔可夫决策过程的区别：当马尔可夫决策过程中的策略确定下来了，马尔可夫决策过程就退化为马尔可夫过程。状态值：vπ(s)=E[Gt∣St=s]=E[Rt+1∣St=s]+γE[Gt+1∣St=s]v_{\pi}(s)=E[G_t | S_t = s] = E\left[R_{t+1}|S_t = s\right] + \gamma E\left[G_{t+1}|S_t = s\right]vπ(s)=E[Gt∣St=s]=E[Rt+1∣St=s]+γE[Gt+1∣St=s]贝

2025-08-29 00:01:16 1238

原创弱对偶性证明

弱对偶性证明

2025-08-28 06:58:27 397

原创拉格朗日对偶推导

拉格朗日对偶形式推导过程

2025-08-28 06:55:06 747

原创 LSTM长短期记忆网络

先回顾下RNN。

2025-08-27 12:56:19 2327

原创拉格朗日函数的等式约束项惩罚机制分析

在标准拉格朗日函数中，等式约束的乘子νj\nu_jνj没有符号限制，因此当违反约束（hjx≠0hjx0）时，项νjhjxνjhjx不一定立即成为惩罚项。然而，通过优化过程（尤其是拉格朗日对偶和乘子更新规则），νj\nu_jνjνj\nu_jνj的符号与hjxh_j(x)hjx的符号一致（正hjxh_j(x)hjx对应正νj\nu_jνj，负hjxh_j(x)hj。

2025-08-26 22:01:10 506

原创 RNN循环神经网络

本文对比了MLP（多层感知机）和RNN（循环神经网络）的结构差异。MLP通过单隐藏层处理输入数据，使用激活函数计算隐藏层输出$\boldsymbol{H}$，再通过线性层得到输出$\boldsymbol{O}$。而RNN在MLP基础上引入了时间维度，隐藏状态$\boldsymbol{H_t}$不仅依赖当前输入$\boldsymbol{X_t}$，还结合前一时间步的隐藏状态$\boldsymbol{H_{t-1}}$，通过权重矩阵$\boldsymbol{W_{hh}}$实现时序信息传递，使网络具有记忆功能，

2025-08-26 01:45:10 1060

weixin_57306453的博客