- 博客(177)
- 资源 (1)
- 收藏
- 关注

原创 【强化学习】Reward Model(奖励模型)详细介绍
Reward Model(奖励模型)是近年来在深度学习和强化学习领域广泛应用的一种技术,特别是在生成式模型(如大型语言模型)和强化学习(RL)结合的场景中,起到了至关重要的作用。它在多个领域的应用中,尤其是在自然语言处理(NLP)和数学推理领域,展现了显著的潜力。
2025-03-21 10:25:29
1510
81

原创 【启发式算法】Dijkstra算法详细介绍(Python)
Dijkstra算法,全称迪杰斯特拉算法,是由荷兰计算机科学家艾兹赫尔·戴克斯特拉(Edsger W. Dijkstra)在1956年提出的,是一种用于解决图中的最短路径问题的算法。这种算法适用于带权重的图,其中每条边有一个非负的权重值。在这篇论文中,他不仅描述了这个算法,还提供了第一次正式的最短路径问题算法理论证明。这篇论文的题目虽然翻译成中文是《关于与图相关的两个问题的说明》,但它在算法史上有着非常重要的地位,因为其中描述的Dijkstra算法成为了解决图中最短路径问题的基石。
2025-03-06 10:31:49
2193
104
原创 一学就会:A*算法详细介绍(Python)
A*算法是一种高效的路径搜索算法,广泛应用于人工智能、机器人技术、游戏开发等领域。它由Peter Hart、Nils Nilsson和Bertram Raphael于1968年首次提出。A算法结合了Dijkstra算法的系统性搜索和启发式搜索的优点,通过使用启发式函数来减少搜索空间,同时保证找到最短路径。
2025-02-27 10:00:06
4579
79
原创 【博客之星】2024年度个人成长、强化学习算法领域总结
在2025年初,非常荣幸能通过审核进入到《2024年度优快云博客之星总评选》TOP300的年度评选中,排名40。这还是第一次来到这个阶段,作为一名博士研究生,还是备受鼓舞的。在这里我将以回顾的方式讲述一下这一年在优快云中走过的路,也对这一年来在👉强化学习领域的相关算法和内容进行总结。2024年,强化学习(ReinforcementLearning,RL)领域取得了显著的进展,本文从强化学习的核心改进、跨领域应用以及未来趋势展望等方面,为您通俗解读这一年的重要成果。
2025-01-19 16:43:16
2130
72
原创 【强化学习】Soft Actor-Critic (SAC) 算法
Soft Actor-Critic(SAC) 是一种最先进的强化学习算法,属于 Actor-Critic 方法的变体。它特别适合处理 连续动作空间,并通过引入最大熵(Maximum Entropy)强化学习的思想,解决了许多传统算法中的稳定性和探索问题。
2025-01-07 08:00:00
7299
102
原创 【强化学习】Double DQN(Double Deep Q-Network)算法
强化学习中的深度Q网络(DQN)是一种将深度学习与Q学习结合的算法,它通过神经网络逼近Q函数以解决复杂的高维状态问题。然而,DQN存在过估计问题(Overestimation Bias),即在更新Q值时,由于同时使用同一个网络选择动作和计算目标Q值,可能导致Q值的估计偏高。Double DQN(DDQN)引入了“双网络”机制来缓解这个问题,从而提高了算法的稳定性和收敛性。
2025-01-04 08:00:00
3650
95
原创 【强化学习】双延迟深度确定性策略梯度算法(TD3)详解
双延迟深度确定性策略梯度算法,TD3(Twin Delayed Deep Deterministic Policy Gradient)是强化学习中专为解决连续动作空间问题设计的一种算法。TD3算法的提出是在深度确定性策略梯度(DDPG)算法的基础上改进而来,用于解决强化学习训练中存在的一些关键挑战。
2025-01-01 08:00:00
5734
91
原创 【强化学习】深度确定性策略梯度算法(DDPG)详解(附代码)
深度确定性策略梯度(Deep Deterministic Policy Gradient、DDPG)算法是一种基于深度强化学习的算法,适用于解决连续动作空间的问题,比如机器人控制中的连续运动。它结合了确定性策略和深度神经网络,是一种模型无关的强化学习算法,属于Actor-Critic框架,并且同时利用了DQN和PG(Policy Gradient)的优点。
2024-12-29 08:00:00
8825
107
原创 【强化学习】近端策略优化算法(PPO)万字详解(附代码)
PPO(Proximal Policy Optimization)是一种强化学习算法,设计的目的是在复杂任务中既保证性能提升,又让算法更稳定和高效。以下用通俗易懂的方式介绍其核心概念和流程。PPO 是 OpenAI 在 2017 年提出的一种策略优化算法,专注于简化训练过程,克服传统策略梯度方法(如TRPO)的计算复杂性,同时保证训练效果。问题:在强化学习中,直接优化策略会导致不稳定的训练,模型可能因为过大的参数更新而崩溃。解决方案:PPO通过限制策略更新幅度,使
2024-12-26 08:00:00
15422
108
原创 【强化学习】异步优势Actor-Critic, A3C算法(对比AC、A2C)
Asynchronous Advantage Actor-Critic,A3C(异步优势Actor-Critic)算法可以用通俗的方式解释为一种“团队协作”的强化学习方法,它的核心思想是通过多个线程(“团队成员”)同时工作,快速学习一个任务的最佳策略。
2024-12-23 08:00:00
2235
155
原创 【强化学习】演员评论家Actor-Critic算法(万字长文、附代码)
演员评论家,Actor-Critic算法是强化学习领域的一种重要方法,结合了“演员”(Actor)和“评论家”(Critic)两个部分,它结合了值函数估计和策略优化的优点。在理解其背景时,需要从强化学习的演化历史、策略梯度方法的局限性以及如何通过值函数辅助优化策略展开。文章用一个生活中的比喻来说明它的原理。
2024-12-20 08:00:00
13372
133
原创 一文学习什么是马尔科夫决策过程(Markov Decision Process, MDP)、以及它的变体POMDP、Dec_POMDP等
马尔科夫决策过程(MDP)是数学上描述决策问题的一种模型。它被广泛应用于强化学习、运筹学、控制系统和经济学等领域。MDP 用来解决带有不确定性和动态性的序列决策问题。
2024-12-17 08:00:00
3137
147
原创 【强化学习】策略梯度---REINFORCE算法
REINFORCE 是一种策略梯度算法,用于强化学习中的策略优化问题。它的核心思想是直接优化策略,通过采样环境中的轨迹来估计梯度并更新策略。 PG(Policy Gradient)算法是一个更大的算法框架,而 REINFORCE 是 PG 算法的一种具体实现。因此,比较两者的关键在于 PG 的普适性和 REINFORCE 的具体特性。
2024-12-13 08:00:00
3196
165
原创 【强化学习】基础在线算法:Sarsa算法
Sarsa算法是一种强化学习(Reinforcement Learning, RL)的经典算法,属于时序差分(Temporal Difference, TD)方法。它是一种基于策略的学习算法,用于解决马尔可夫决策过程(Markov Decision Process, MDP)中的问题。简单来说,Sarsa的目标是通过不断地交互,学习如何从当前状态选择最优动作,从而获得最大的累积奖励。
2024-12-11 08:00:00
2026
149
原创 【强化学习】策略梯度(Policy Gradient,PG)算法
在强化学习中,Policy Gradient(策略梯度)算法是一类通过优化策略函数直接来求解最优策略的方法。与基于值函数(例如Q学习和SARSA)的方法不同,策略梯度方法直接对策略函数进行建模,目标是通过梯度下降的方法来最大化预期的累积奖励(即期望回报)。这些算法主要适用于连续的动作空间或高维问题,能够在复杂的环境中取得较好的性能。
2024-12-08 08:00:00
6586
109
原创 【强化学习】基础离线算法:Q-Learning算法
在强化学习中,Q-Learning 是一种基于值函数的强化学习算法。它通过学习一个状态-动作值函数(Q函数)来选择最优策略。Q-Learning 是一种 无模型(model-free) 的强化学习方法,意味着它不需要了解环境的动态(即转移概率和奖励函数),而只依赖于与环境的交互。Q-Learning 的目标是通过不断地更新 Q 值,使得智能体能够选择在给定状态下能获得最大累积奖励的动作。Q-Learning 的一个重要特点是,它保证在探索足够多的状态-动作对后,最终会收敛到最优策略。
2024-12-06 08:00:00
2028
165
原创 【SARL】单智能体强化学习(Single-Agent Reinforcement Learning)《纲要》
强化学习(Reinforcement Learning,简称 RL)是一种让机器“通过尝试和错误学习”的方法。它模拟了人类和动物通过经验积累来学会做决策的过程,目的是让机器或智能体能够在复杂的环境中选择最优的行为,从而获得最大的奖励。我们在这里介绍了单智能体强化学习的相关算法。
2024-12-04 08:00:00
2571
169
原创 【RL Application】语义分割中的强化学习方法
强化学习(Reinforcement Learning, RL)在语义分割中的实现可以通过以下几种方式展开:将分割任务建模为一个强化学习问题,其中 环境 是图像,动作 是分割操作,奖励 则衡量分割的质量
2024-12-02 08:00:00
1546
187
原创 【RL Base】强化学习:信赖域策略优化(TRPO)算法
在强化学习(RL)领域,如何稳定地优化策略是一个核心挑战。2015 年,由 John Schulman 等人提出的信赖域策略优化(Trust Region Policy Optimization, TRPO)算法为这一问题提供了优雅的解决方案。TRPO 通过限制策略更新的幅度,避免了策略更新过大导致的不稳定问题,是强化学习中经典的策略优化方法之一。TRPO 是一种基于策略梯度的优化算法,其目标是通过限制新策略和旧策略之间的差异来确保训练的稳定性。TRPO 在高维、连续动作空间中表现尤为出色
2024-11-30 13:01:27
2617
146
原创 【RL Base】强化学习核心算法:深度Q网络(DQN)算法
深度Q网络(DQN)是深度强化学习的核心算法之一,由Google DeepMind在2015年的论文《Playing Atari with Deep Reinforcement Learning》中提出。DQN通过结合深度学习和强化学习,利用神经网络近似Q值函数,在高维、连续状态空间的环境中表现出了强大的能力。
2024-11-28 08:00:00
5387
106
原创 【Reinforcement Learning】强化学习下的多级反馈队列(MFQ)算法
在强化学习(Reinforcement Learning, RL)相关背景下,多级反馈队列(Multilevel Feedback Queue, MFQ)算法可以作为调度问题的求解框架,用于优化资源分配和任务调度策略。在这种情况下,MFQ的概念和机制可以被调整为一种面向学习的形式,其中调度策略通过强化学习算法来动态优化。
2024-11-26 08:00:00
2727
131
原创 【RL Base】多级反馈队列(MFQ)算法
多级反馈队列(MFQ)是一种经典的调度算法,广泛用于操作系统任务调度,也可用于强化学习环境中。它是一种灵活且高效的调度机制,通过动态调整任务在不同队列中的优先级,实现公平性和响应时间的优化。多级反馈队列通过使用多个优先级队列,根据任务的运行时间和系统负载动态调整任务的优先级。高优先级队列处理短任务或新到达的任务,低优先级队列处理较长的任务,且允许任务随着时间从一个队列转移到另一个队列。
2024-11-24 08:00:00
2899
169
原创 【MARL】深入理解多智能体近端策略优化(MAPPO)算法与调参
MAPPO 是一种多智能体强化学习算法,基于单智能体的 PPO (Proximal Policy Optimization) 算法进行了扩展,专门设计用于解决多智能体协作和竞争环境中的决策问题。要想更好的理解MAPPO算法的原理机制,得先从On-Policy 和 Off-Policy 两种算法类型出发。在强化学习中,on-policy 和 off-policy 算法根据策略更新时是否依赖当前策略的经验来区分。以下是两类算法的定义和常见算法列表。
2024-11-22 08:00:00
9531
216
原创 【Academic tailor】学术小裁缝必备知识点:全局注意力机制(GAM)
如何做好一个学术小裁缝?1.广泛阅读;2.优化创新:西红柿炒鸡蛋;3.内容美化;4..投稿技术;5.保命方法。全局注意力机制(Global Attention Mechanism, GAM)由《Global Attention Mechanism: Retain Information to Enhance Channel-Spatial Interactions》提出,是一篇针对计算机视觉任务提出的方法。这篇文章聚焦于增强深度神经网络中通道和空间维度之间的交互,以提高分类任务的性能。
2024-11-20 08:00:00
2749
209
原创 【SSL-RL】增强Curiosity-driven Exploration (CDE)算法的探索能力
为了进一步提升Curiosity-driven Exploration (CDE)算法在强化学习任务中的性能,可以考虑通过以下几个方面的改进来优化智能体的探索行为和效率.
2024-11-18 08:00:00
7963
217
原创 【SSL-RL】自监督强化学习: 好奇心驱动探索 (CDE)算法
好奇心驱动探索,Curiosity-driven Exploration (CDE)算法是一种用于自监督强化学习的算法,旨在通过激发智能体的“好奇心”来引导其探索未知环境。好奇心驱动的探索机制主要基于智能体对环境的预测误差:当智能体遇到无法准确预测的情境时,会将其视为一个具有“新奇性”的事件,从而被激励去探索该区域。CDE适用于稀疏奖励或无奖励的环境,通过自监督的方式增强智能体的探索能力,使其能够自主地发现和学习新的环境结构和行为模式。
2024-11-15 08:00:00
5299
221
原创 【SSL-RL】自监督强化学习:自预测表征 (SPR)算法
自预测表征,Self-Predictive Representations (SPR)算法 是一种用于自监督强化学习的算法,旨在通过学习预测未来的潜在状态来帮助智能体构建有用的状态表示。SPR在强化学习任务中无需依赖稀疏或外部奖励,通过自监督学习的方法获得环境的潜在结构和动态信息。这种方法特别适合高维观测环境(如图像)或部分可观测的任务。
2024-11-13 08:00:00
5730
210
原创 【SSL-RL】自监督强化学习:随机潜在演员评论家 (SLAC)算法
随机潜在演员评论家,Stochastic Latent Actor-Critic (SLAC)算法 是一种用于连续控制任务的自监督强化学习算法,由Google Brain提出。SLAC结合了自监督学习和深度强化学习,通过构建一个隐变量模型(Latent Variable Model)来捕捉环境的潜在状态,并使用这些状态来进行策略优化。SLAC特别适合于高维观测(如图像)和部分可观测的环境。SLAC算法的主要目标是通过学习潜在空间的动态来更好地估计环境状态,进而提升智能体的策略学习效率。
2024-11-11 08:00:00
5440
214
原创 【SSL-RL】自监督强化学习:引导式潜在预测表征 (BLR)算法
引导式潜在预测表征,Bootstrap Latent-predictive Representations (BLR) 是一种创新的自监督学习方法,用于从高维观测中提取潜在的、能够进行预测的状态表示。这种方法特别适用于强化学习场景,在稀疏奖励和无奖励的环境下,BLR通过构建一种自我引导的表示学习机制,使得智能体能够从环境观测中提取有用的潜在表示。BLR主要通过自Bootstrap Latent-predictive Representations监督目标训练模型,以预测未来的潜在状态,从而使得智能体可以
2024-11-09 08:00:00
4920
178
原创 【SSL-RL】自监督强化学习:解耦表示学习 (DRL)算法
解耦表示学习,Decoupled Representation Learning (DRL) 是一种用于在自监督强化学习(Self-Supervised Reinforcement Learning, SSRL)中学习解耦表示的算法。DRL旨在通过将表示学习和策略学习过程分离,以实现更高效的学习。该算法适用于许多强化学习场景,特别是在高维观测(如图像、视频等)中,有效提取低维、独立的状态表示,帮助智能体更好地理解环境并进行决策。
2024-11-07 08:00:00
2708
196
原创 【SSL-RL】自监督强化学习:随机网络蒸馏(RND)方法
随机网络蒸馏(RND)是一种自监督学习方法,旨在提高强化学习中的探索效率。该算法由 Chesney et al. 在论文《Random Network Distillation as a Method for Intrinsic Motivation》提出,RND 利用随机神经网络的输出与环境状态的真实特征之间的差异来生成内在奖励,鼓励智能体探索未见过的状态。这种方法尤其适用于外部奖励稀疏的环境。
2024-11-04 08:00:00
2573
228
原创 【SSL-RL】自监督强化学习:Plan2Explore算法
Plan2Explore是自监督强化学习中的一项创新算法,旨在解决探索问题,尤其是在没有外部奖励信号或奖励稀疏的情境下,如何让智能体有效探索环境。Plan2Explore通过自监督的方式来提高智能体对环境的探索能力,不依赖外部奖励。
2024-11-01 08:00:00
4263
219
原创 【SSL-RL】自监督强化学习:对比预测编码(CPC)算法
Contrastive Predictive Coding (CPC) 是一种用于学习有效表示的自监督学习方法,它可以用于强化学习环境中来帮助智能体学习有用的状态表示。CPC主要通过对序列数据进行建模,并通过对比学习(Contrastive Learning)来提取全局特征。CPC的核心思想是最大化当前观察和未来潜在特征的互信息,进而学习到有用的表征。CPC算法由DeepMind提出,它的主要目的是减少无监督学习中对标签的依赖,同时最大化局部信息和全局特征之间的关联。
2024-10-30 08:00:00
2189
217
原创 【Hierarchical RL】不允许你不了解分层强化学习(总结篇)
分层强化学习从月初更新到了月中,也准备告一段落了,后续深入研究强化学习,分层的理念多多少少都会涉及。面对复杂场景下的智能体决策问题,如何将复杂问题简单化总是不可避免的。如果后续还有值得分享算法,也会再开单文介绍。
2024-10-28 08:00:00
5346
233
原创 【SSL-RL】基于好奇心驱动的自监督探索机制(ICM算法)
Intrinsic Curiosity Module (ICM) 是一种用于强化学习的内在奖励机制,旨在解决传统强化学习中在稀疏奖励场景下,智能体难以学习有效策略的问题。该算法由 Deepak Pathak 等人在论文《Curiosity-driven Exploration by Self-supervised Prediction》中提出。ICM 是通过引入“好奇心”作为一种内在动机,帮助智能体在缺乏外部奖励的情况下探索环境并获取经验,从而提高强化学习的效率。
2024-10-26 08:00:00
6649
212
原创 【SSL-RL】自监督强化学习:事后经验回放 (HER)算法
事后经验回放,Hindsight Experience Replay (HER) 是一种在稀疏奖励强化学习环境下提高智能体学习效率的策略。稀疏奖励问题是指智能体在多数状态下无法获得有价值的反馈,因为奖励信号极其稀少或完全没有。HER通过回顾智能体过去未能实现的目标,将这些“失败”的经验转换为有价值的学习机会,从而极大地提高了智能体在稀疏奖励场景中的学习效率。
2024-10-24 08:00:00
5097
221
原创 【RL Latest Tech】自监督强化学习(SSL-RL):理论与方法
自监督强化学习(Self-Supervised Reinforcement Learning,SSL-RL)是一种通过让智能体在没有明确外部奖励信号的情况下,自主地从环境中学习表示和特征的强化学习方法。其核心思想是智能体通过自主生成目标或利用环境中的潜在结构,学习到有用的特征,以便在以后更高效地处理任务。自监督强化学习的核心优势在于能够提高样本效率,减少对外部奖励信号的依赖,并促使智能体在丰富的环境中自主发现新的策略和行为。
2024-10-22 08:00:00
5514
233
原创 【Hierarchical RL】离线策略修正分层强化学习(HIRO)算法
离线策略修正分层强化学习,Hierarchical Reinforcement Learning with Off-Policy Correction (HIRO) 是一种基于分层强化学习的算法,旨在解决长时间跨度和稀疏奖励问题。HIRO 特别引入了离策略(off-policy)校正机制,允许高层策略利用低层策略的经验,而不会因为低层策略的更新而产生偏差。
2024-10-20 08:00:00
2145
229
原创 【Hierarchical RL】动态分层强化学习(DHRL)算法
动态分层强化学习,Dynamic Hierarchical Reinforcement Learning (DHRL) 是一种自适应分层强化学习算法,其目标是根据任务和环境的复杂性动态地构建、修改和利用分层策略。DHRL 不仅仅是预定义层次结构的简单执行,而是允许代理在学习过程中根据需要动态生成和调整分层策略,从而实现更好的任务分解和高效学习。DHRL 扩展了传统的分层强化学习(HRL),通过动态调整层次和策略,使其适应环境中的变化和不确定性。
2024-10-18 08:00:00
2692
222
原创 【Hierarchical RL】Options Framework(选项框架)
Options Framework(选项框架)是分层强化学习中的一种经典方法,旨在通过将动作抽象化为**选项(Options)**来简化复杂任务的学习过程。基于Sutton等人提出的选项框架(Options Framework),其中选项是从一个子任务执行到完成的高层决策链。高层决策什么时候调用特定选项,低层负责具体执行选项的策略。选项框架允许智能体在多个时间步内选择并执行较高级别的策略,而不仅仅是在每个时间步选择单个动作。通过这种方式,智能体可以更好地解决长时间跨度的任务。
2024-10-16 08:00:00
1404
212
Dijkstra算法python实现
2025-03-06
A*算法(Python)
2025-02-27
RL Base强化学习:信赖域策略优化(TRPO)算法TensorFlow实现
2024-11-23
RL Base强化学习:信赖域策略优化(TRPO)算法Pytorch 实现
2024-11-23
【Academic tailor】学术小裁缝必备知识点:全局注意力机制(GAM)pytorch
2024-11-23
【Academic tailor】学术小裁缝必备知识点:全局注意力机制(GAM)TensorFlow
2024-11-23
MADRL基于MADRL的单调价值函数分解(QMIX)算法
2024-11-08
自预测表征 (SPR)算法
2024-11-05
课程设计随机潜在演员评论家 (SLAC)算法
2024-11-05
SSL-RL自监督强化学习:事后经验回放 (HER)算法
2024-10-23
SSL-RL自监督强化学习:对比预测编码(CPC)算法
2024-10-23
SSL-RL自监督强化学习:随机网络蒸馏(RND)方法
2024-10-23
SSL-RL基于好奇心驱动的自监督探索机制(ICM算法)
2024-10-23
【Hierarchical RL】离线策略修正分层强化学习(HIRO)算法代码
2024-10-10
【Hierarchical RL】动态分层强化学习(DHRL)算法代码
2024-10-10
【Hierarchical RL】Options Framework(选项框架)python代码
2024-10-08
【Hierarchical RL】隐空间分层强化学习(HRL-LS )算法python代码
2024-10-08
【Hierarchical RL】分层演员-评论家(Hierarchical Actor-Critic )算法代码
2024-10-08
【Hierarchical RL】分层强化学习:Hierarchical-DQN算法
2024-10-07
【RL Latest Tech】分层强化学习:FeUdal Networks算法程序
2024-10-03
【RL Latest Tech】分层强化学习:MAXQ分解算法python实现
2024-10-02
【RL Latest Tech】分层强化学习:Option-Critic架构算法(简单实现代码)
2024-09-30
RL Latest Tech分层强化学习:Option-Critic架构算法
2024-09-30
离线强化学习:行为规范Actor Critic (BRAC) 算法实现
2024-09-25
RL Latest Tech离线强化学习:保守Q学习 (CQL) 算法
2024-09-23
RL基于迁移学习的强化学习(RL-TL)
2024-09-19
MADRL面向角色的多智能体强化学习(ROMA)算法代码
2024-09-18
MADRL多智能体价值分解网络(VDN)算法
2024-09-11
MADRL多智能体近端策略优化(MAPPO)算法
2024-09-10
MADRL多智能体双延迟深度确定性策略梯度(MATD3)算法
2024-09-07
MADRL多智能体深度确定性策略梯度(MADDPG )算法
2024-09-07
论文复现-V型稀疏阵列实现二维DOA估计
2024-07-22
智能方法求解-圆环内传感器节点最大最小距离分布
2024-07-22
最优化方法求解-圆环内传感器节点最大最小距离分布
2024-07-22
《毕业设计》基于遗传算法的旅游路程和资金需求最优规划方案
2024-07-11
论文复现-基于随机蕨的快速相位差DOA估计
2024-06-27
FGSM、PGD、BIM对抗攻击算法实现资源
2023-12-16
LetNet、AlexNet、ResNet网络模型实现手写数字识别
2023-12-16
1995-2021年电赛国赛仪器仪表类赛题汇总
2023-07-08
深度学习初学者使用TensorFlow框架还是pytorch框架更合适呢
2023-07-06
TA创建的收藏夹 TA关注的收藏夹
TA关注的人