
单智能体强化学习【SARL】
文章平均质量分 97
主要包含单智能体强化学习算法,强化学习算法的基础算法,如DQN、DDPG、PPO等算法
不去幼儿园
人工智能|强化学习|嵌入式|985高校A+学科研究生|优快云博客专家|华为云享专家|人工智能领域优质创作者|猿龄六年|大厂软件开发工程师offer|嵌入式开发(STM32、C51)|Linux系统|Web前端|微信小程序|平常记录点技术/经验笔记|交流学习|共同进步|绿泡泡Rainbook_2|添加一下|不就互联网人脉+1|十分欢迎交流学习|but不接广|广告勿扰|谢谢!!!
展开
-
【强化学习】近端策略优化算法(PPO)万字详解(附代码)
PPO(Proximal Policy Optimization)是一种强化学习算法,设计的目的是在复杂任务中既保证性能提升,又让算法更稳定和高效。以下用通俗易懂的方式介绍其核心概念和流程。PPO 是 OpenAI 在 2017 年提出的一种策略优化算法,专注于简化训练过程,克服传统策略梯度方法(如TRPO)的计算复杂性,同时保证训练效果。问题:在强化学习中,直接优化策略会导致不稳定的训练,模型可能因为过大的参数更新而崩溃。解决方案:PPO通过限制策略更新幅度,使原创 2024-12-26 08:00:00 · 15747 阅读 · 108 评论 -
【强化学习】Soft Actor-Critic (SAC) 算法
Soft Actor-Critic(SAC) 是一种最先进的强化学习算法,属于 Actor-Critic 方法的变体。它特别适合处理 连续动作空间,并通过引入最大熵(Maximum Entropy)强化学习的思想,解决了许多传统算法中的稳定性和探索问题。原创 2025-01-07 08:00:00 · 7401 阅读 · 102 评论 -
【强化学习】Double DQN(Double Deep Q-Network)算法
强化学习中的深度Q网络(DQN)是一种将深度学习与Q学习结合的算法,它通过神经网络逼近Q函数以解决复杂的高维状态问题。然而,DQN存在过估计问题(Overestimation Bias),即在更新Q值时,由于同时使用同一个网络选择动作和计算目标Q值,可能导致Q值的估计偏高。Double DQN(DDQN)引入了“双网络”机制来缓解这个问题,从而提高了算法的稳定性和收敛性。原创 2025-01-04 08:00:00 · 3694 阅读 · 94 评论 -
【强化学习】双延迟深度确定性策略梯度算法(TD3)详解
双延迟深度确定性策略梯度算法,TD3(Twin Delayed Deep Deterministic Policy Gradient)是强化学习中专为解决连续动作空间问题设计的一种算法。TD3算法的提出是在深度确定性策略梯度(DDPG)算法的基础上改进而来,用于解决强化学习训练中存在的一些关键挑战。原创 2025-01-01 08:00:00 · 5810 阅读 · 90 评论 -
【强化学习】深度确定性策略梯度算法(DDPG)详解(附代码)
深度确定性策略梯度(Deep Deterministic Policy Gradient、DDPG)算法是一种基于深度强化学习的算法,适用于解决连续动作空间的问题,比如机器人控制中的连续运动。它结合了确定性策略和深度神经网络,是一种模型无关的强化学习算法,属于Actor-Critic框架,并且同时利用了DQN和PG(Policy Gradient)的优点。原创 2024-12-29 08:00:00 · 8975 阅读 · 106 评论 -
【强化学习】异步优势Actor-Critic, A3C算法(对比AC、A2C)
Asynchronous Advantage Actor-Critic,A3C(异步优势Actor-Critic)算法可以用通俗的方式解释为一种“团队协作”的强化学习方法,它的核心思想是通过多个线程(“团队成员”)同时工作,快速学习一个任务的最佳策略。原创 2024-12-23 08:00:00 · 2245 阅读 · 154 评论 -
【强化学习】演员评论家Actor-Critic算法(万字长文、附代码)
演员评论家,Actor-Critic算法是强化学习领域的一种重要方法,结合了“演员”(Actor)和“评论家”(Critic)两个部分,它结合了值函数估计和策略优化的优点。在理解其背景时,需要从强化学习的演化历史、策略梯度方法的局限性以及如何通过值函数辅助优化策略展开。文章用一个生活中的比喻来说明它的原理。原创 2024-12-20 08:00:00 · 13561 阅读 · 132 评论 -
【强化学习】策略梯度---REINFORCE算法
REINFORCE 是一种策略梯度算法,用于强化学习中的策略优化问题。它的核心思想是直接优化策略,通过采样环境中的轨迹来估计梯度并更新策略。 PG(Policy Gradient)算法是一个更大的算法框架,而 REINFORCE 是 PG 算法的一种具体实现。因此,比较两者的关键在于 PG 的普适性和 REINFORCE 的具体特性。原创 2024-12-13 08:00:00 · 3210 阅读 · 164 评论 -
【强化学习】基础在线算法:Sarsa算法
Sarsa算法是一种强化学习(Reinforcement Learning, RL)的经典算法,属于时序差分(Temporal Difference, TD)方法。它是一种基于策略的学习算法,用于解决马尔可夫决策过程(Markov Decision Process, MDP)中的问题。简单来说,Sarsa的目标是通过不断地交互,学习如何从当前状态选择最优动作,从而获得最大的累积奖励。原创 2024-12-11 08:00:00 · 2039 阅读 · 148 评论 -
【RL Base】强化学习:信赖域策略优化(TRPO)算法
在强化学习(RL)领域,如何稳定地优化策略是一个核心挑战。2015 年,由 John Schulman 等人提出的信赖域策略优化(Trust Region Policy Optimization, TRPO)算法为这一问题提供了优雅的解决方案。TRPO 通过限制策略更新的幅度,避免了策略更新过大导致的不稳定问题,是强化学习中经典的策略优化方法之一。TRPO 是一种基于策略梯度的优化算法,其目标是通过限制新策略和旧策略之间的差异来确保训练的稳定性。TRPO 在高维、连续动作空间中表现尤为出色原创 2024-11-30 13:01:27 · 2624 阅读 · 145 评论 -
【RL Base】强化学习核心算法:深度Q网络(DQN)算法
深度Q网络(DQN)是深度强化学习的核心算法之一,由Google DeepMind在2015年的论文《Playing Atari with Deep Reinforcement Learning》中提出。DQN通过结合深度学习和强化学习,利用神经网络近似Q值函数,在高维、连续状态空间的环境中表现出了强大的能力。原创 2024-11-28 08:00:00 · 5403 阅读 · 105 评论 -
【SARL】单智能体强化学习(Single-Agent Reinforcement Learning)《纲要》
强化学习(Reinforcement Learning,简称 RL)是一种让机器“通过尝试和错误学习”的方法。它模拟了人类和动物通过经验积累来学会做决策的过程,目的是让机器或智能体能够在复杂的环境中选择最优的行为,从而获得最大的奖励。我们在这里介绍了单智能体强化学习的相关算法。原创 2024-12-04 08:00:00 · 2588 阅读 · 168 评论 -
【强化学习】基础离线算法:Q-Learning算法
在强化学习中,Q-Learning 是一种基于值函数的强化学习算法。它通过学习一个状态-动作值函数(Q函数)来选择最优策略。Q-Learning 是一种 无模型(model-free) 的强化学习方法,意味着它不需要了解环境的动态(即转移概率和奖励函数),而只依赖于与环境的交互。Q-Learning 的目标是通过不断地更新 Q 值,使得智能体能够选择在给定状态下能获得最大累积奖励的动作。Q-Learning 的一个重要特点是,它保证在探索足够多的状态-动作对后,最终会收敛到最优策略。原创 2024-12-06 08:00:00 · 2033 阅读 · 164 评论 -
【强化学习】策略梯度(Policy Gradient,PG)算法
在强化学习中,Policy Gradient(策略梯度)算法是一类通过优化策略函数直接来求解最优策略的方法。与基于值函数(例如Q学习和SARSA)的方法不同,策略梯度方法直接对策略函数进行建模,目标是通过梯度下降的方法来最大化预期的累积奖励(即期望回报)。这些算法主要适用于连续的动作空间或高维问题,能够在复杂的环境中取得较好的性能。原创 2024-12-08 08:00:00 · 6616 阅读 · 108 评论