自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 每日一题算法——螺旋矩阵

这道题没有用到什么特别的算法,重点在于对于螺旋的分解,每各螺旋分成四个登场的部分,统一区间的开闭(左闭右开)。此外若n为奇数要对中心额外赋值。

2025-04-15 18:54:11 159

原创 每日一题算法——长度最小的子数组

精髓在于:先让这个滑动窗口尾端不断增大,当它大于等于target时,先判断此时与子数组长度是否需要更新,判断完成之后,这时可以将其头部后移。这道题目暴力解法当然是 两个for循环,然后不断的寻找符合条件的子序列,时间复杂度很明显是O(n^2)。后面力扣更新了数据,暴力解法已经超时了。时间复杂度:O(n^2)空间复杂度:O(1)

2025-04-14 10:59:53 272

原创 每日一题算法——有序数组的平方

这个时间复杂度是 O(n + nlogn), 可以说是O(nlogn)的时间复杂度,但为了和下面双指针法算法时间复杂度有鲜明对比,我记为 O(n + nlog n)。我的题解:双指针(left,right)->拷贝到一个新数组。其它解法:各种排序算法。

2025-04-13 18:09:23 185

原创 每日一题算法——移除元素

slow指向下一个存储数字的位置,fast用来找val,若当前fast==val,跳过。错误点:未注意边界。该解法需要对边界有精确判断,较为复杂。本人解法:使用双端指针。

2025-04-12 21:15:36 172

原创 每日一题算法——二分查找

二分查找

2025-04-11 20:13:29 842

原创 深度强化学习中的Double-DQN:解决Q值过估计的革新方法

Double-DQN通过解耦动作选择与价值评估,有效缓解了DQN的Q值过估计问题,成为深度强化学习中的基础改进算法。其简洁的实现方式与显著的性能提升,使其成为Atari、机器人控制等任务的首选框架。未来,随着与分布强化学习(Distributional RL)、元学习等技术的结合,Double-DQN有望在更复杂的决策场景中持续发挥核心作用。

2025-03-17 23:32:33 649

原创 深度强化学习——DQN

DQN开创了深度强化学习的新时代,证明了神经网络在复杂决策任务中的潜力。尽管存在计算成本高、训练不稳定等挑战,通过经验回放、目标网络及后续变体改进,DQN已成为DRL的基础框架。未来,结合元学习、多任务迁移、以及更高效的探索策略(如基于熵最大化),DQN有望在自动驾驶、医疗决策等现实场景中发挥更大价值。

2025-03-16 23:28:52 977

原创 强化学习基础篇——规划与学习

规划(Planning)基于环境模型(Model),通过模拟生成状态-动作序列,计算最优策略。典型方法包括动态规划(DP)和蒙特卡洛树搜索(MCTS)。

2025-03-16 11:27:46 851

原创 强化学习基础篇——策略梯度

策略梯度方法通过直接优化参数化策略,克服了值函数方法在连续动作和高维状态空间中的局限性,成为复杂决策任务的首选方案。从基础的REINFORCE到现代的PPO、SAC,策略梯度通过引入优势估计、信任域约束等技术不断提升稳定性与效率。其在机器人控制、游戏AI、自动驾驶等领域的成功应用,验证了其强大的建模能力。未来,随着与深度学习、多任务学习的进一步融合,策略梯度有望在通用人工智能、实时决策系统中发挥更核心的作用。

2025-03-15 20:32:04 1051

原创 强化学习基础篇——值函数近似

值函数近似是强化学习应对大规模状态空间的核心技术,通过参数化函数替代表格存储,实现了从低维到高维、从离散到连续问题的扩展。线性近似提供理论保障,而非线性近似(如神经网络)在实践中展现出强大的潜力。尽管面临收敛性、探索与利用平衡等挑战,通过目标网络、经验回放等技术,值函数近似已在游戏AI、机器人控制等领域取得突破。随着深度学习与强化学习的进一步融合,值函数近似将继续推动通用人工智能的发展,尤其是在复杂环境建模、多任务泛化等方向。

2025-03-14 14:08:58 1170

原创 强化学习基础篇——Q-learning和SARSA

Q-learning 和 SARSA 是强化学习中两种重要的时序差分算法,分别代表了离策略和在策略的学习方法。Q-learning 通过直接学习最优动作价值函数,能够收敛到全局最优策略,但在探索与利用的平衡上可能存在不足。SARSA 则基于当前策略学习动作价值函数,更适合动态环境和需要保守决策的场景。在实际应用中,选择哪种算法取决于具体问题的性质和环境的特点。随着深度强化学习的发展,Q-learning 和 SARSA 的思想也被扩展到更复杂的场景中,例如深度 Q 网络(DQN)和深度 SARSA 算法。

2025-03-13 13:45:08 794

原创 强化学习基础篇-马尔可夫决策过程

马尔可夫决策过程是强化学习的理论基础,提供了一种形式化的方法描述智能体与环境的交互过程。通过定义状态空间、动作空间、转移概率和奖励函数,MDP 能够建模复杂的决策问题。动态规划、蒙特卡罗方法和时序差分学习是求解 MDP 的经典方法,而 MDP 在游戏 AI、机器人控制、资源管理和医疗决策等领域展现了强大的应用潜力。随着深度强化学习的发展,MDP 框架与神经网络结合,进一步扩展了其解决复杂问题的能力。欢迎批评指正!

2025-03-12 23:23:27 614

原创 MADDPG技术分析

传统的单智能体强化学习算法在面临多智能体环境时往往表现欠佳,主要面临环境非稳态、信用分配困难等挑战。随着多智能体系统在智能制造、智慧城市等领域的深化应用,MADDPG及其改进算法将持续推动群体智能决策技术的发展。1. **环境非稳态**:多个智能体同时学习导致环境动态持续变化。3. **维度灾难**:联合状态-动作空间随智能体数量指数级膨胀。2. **信用分配**:难以评估单个智能体对全局奖励的贡献程度。4. **通信约束**:智能体间的信息交互面临带宽和延迟限制。

2025-03-07 16:57:10 272

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除