不去幼儿园-优快云博客

原创【强化学习】Reward Model（奖励模型）详细介绍

Reward Model（奖励模型）是近年来在深度学习和强化学习领域广泛应用的一种技术，特别是在生成式模型（如大型语言模型）和强化学习（RL）结合的场景中，起到了至关重要的作用。它在多个领域的应用中，尤其是在自然语言处理（NLP）和数学推理领域，展现了显著的潜力。

2025-03-21 10:25:29 1510 81

原创【启发式算法】Dijkstra算法详细介绍（Python）

Dijkstra算法，全称迪杰斯特拉算法，是由荷兰计算机科学家艾兹赫尔·戴克斯特拉（Edsger W. Dijkstra）在1956年提出的，是一种用于解决图中的最短路径问题的算法。这种算法适用于带权重的图，其中每条边有一个非负的权重值。在这篇论文中，他不仅描述了这个算法，还提供了第一次正式的最短路径问题算法理论证明。这篇论文的题目虽然翻译成中文是《关于与图相关的两个问题的说明》，但它在算法史上有着非常重要的地位，因为其中描述的Dijkstra算法成为了解决图中最短路径问题的基石。

2025-03-06 10:31:49 2193 104

原创一学就会：A*算法详细介绍（Python）

A*算法是一种高效的路径搜索算法，广泛应用于人工智能、机器人技术、游戏开发等领域。它由Peter Hart、Nils Nilsson和Bertram Raphael于1968年首次提出。A算法结合了Dijkstra算法的系统性搜索和启发式搜索的优点，通过使用启发式函数来减少搜索空间，同时保证找到最短路径。

2025-02-27 10:00:06 4579 79

原创【博客之星】2024年度个人成长、强化学习算法领域总结

在2025年初，非常荣幸能通过审核进入到《2024年度优快云博客之星总评选》TOP300的年度评选中，排名40。这还是第一次来到这个阶段，作为一名博士研究生，还是备受鼓舞的。在这里我将以回顾的方式讲述一下这一年在优快云中走过的路，也对这一年来在👉强化学习领域的相关算法和内容进行总结。2024年，强化学习（ReinforcementLearning,RL）领域取得了显著的进展，本文从强化学习的核心改进、跨领域应用以及未来趋势展望等方面，为您通俗解读这一年的重要成果。

2025-01-19 16:43:16 2130 72

原创【强化学习】Soft Actor-Critic (SAC) 算法

Soft Actor-Critic（SAC）是一种最先进的强化学习算法，属于 Actor-Critic 方法的变体。它特别适合处理连续动作空间，并通过引入最大熵（Maximum Entropy）强化学习的思想，解决了许多传统算法中的稳定性和探索问题。

2025-01-07 08:00:00 7299 102

原创【强化学习】Double DQN(Double Deep Q-Network)算法

强化学习中的深度Q网络（DQN）是一种将深度学习与Q学习结合的算法，它通过神经网络逼近Q函数以解决复杂的高维状态问题。然而，DQN存在过估计问题（Overestimation Bias），即在更新Q值时，由于同时使用同一个网络选择动作和计算目标Q值，可能导致Q值的估计偏高。Double DQN（DDQN）引入了“双网络”机制来缓解这个问题，从而提高了算法的稳定性和收敛性。

2025-01-04 08:00:00 3650 95

原创【强化学习】双延迟深度确定性策略梯度算法(TD3)详解

双延迟深度确定性策略梯度算法，TD3（Twin Delayed Deep Deterministic Policy Gradient）是强化学习中专为解决连续动作空间问题设计的一种算法。TD3算法的提出是在深度确定性策略梯度（DDPG）算法的基础上改进而来，用于解决强化学习训练中存在的一些关键挑战。

2025-01-01 08:00:00 5734 91

原创【强化学习】深度确定性策略梯度算法(DDPG)详解（附代码）

深度确定性策略梯度（Deep Deterministic Policy Gradient、DDPG）算法是一种基于深度强化学习的算法，适用于解决连续动作空间的问题，比如机器人控制中的连续运动。它结合了确定性策略和深度神经网络，是一种模型无关的强化学习算法，属于Actor-Critic框架，并且同时利用了DQN和PG（Policy Gradient）的优点。

2024-12-29 08:00:00 8825 107

原创【强化学习】近端策略优化算法(PPO)万字详解（附代码）

PPO（Proximal Policy Optimization）是一种强化学习算法，设计的目的是在复杂任务中既保证性能提升，又让算法更稳定和高效。以下用通俗易懂的方式介绍其核心概念和流程。PPO 是 OpenAI 在 2017 年提出的一种策略优化算法，专注于简化训练过程，克服传统策略梯度方法（如TRPO）的计算复杂性，同时保证训练效果。问题：在强化学习中，直接优化策略会导致不稳定的训练，模型可能因为过大的参数更新而崩溃。解决方案：PPO通过限制策略更新幅度，使

2024-12-26 08:00:00 15422 108

原创【强化学习】异步优势Actor-Critic， A3C算法(对比AC、A2C)

Asynchronous Advantage Actor-Critic，A3C（异步优势Actor-Critic）算法可以用通俗的方式解释为一种“团队协作”的强化学习方法，它的核心思想是通过多个线程（“团队成员”）同时工作，快速学习一个任务的最佳策略。

2024-12-23 08:00:00 2235 155

原创【强化学习】演员评论家Actor-Critic算法(万字长文、附代码)

演员评论家，Actor-Critic算法是强化学习领域的一种重要方法，结合了“演员”（Actor）和“评论家”（Critic）两个部分，它结合了值函数估计和策略优化的优点。在理解其背景时，需要从强化学习的演化历史、策略梯度方法的局限性以及如何通过值函数辅助优化策略展开。文章用一个生活中的比喻来说明它的原理。

2024-12-20 08:00:00 13372 133

原创一文学习什么是马尔科夫决策过程（Markov Decision Process, MDP）、以及它的变体POMDP、Dec_POMDP等

马尔科夫决策过程（MDP）是数学上描述决策问题的一种模型。它被广泛应用于强化学习、运筹学、控制系统和经济学等领域。MDP 用来解决带有不确定性和动态性的序列决策问题。

2024-12-17 08:00:00 3137 147

原创【强化学习】策略梯度---REINFORCE算法

REINFORCE 是一种策略梯度算法，用于强化学习中的策略优化问题。它的核心思想是直接优化策略，通过采样环境中的轨迹来估计梯度并更新策略。 PG（Policy Gradient）算法是一个更大的算法框架，而 REINFORCE 是 PG 算法的一种具体实现。因此，比较两者的关键在于 PG 的普适性和 REINFORCE 的具体特性。

2024-12-13 08:00:00 3196 165

原创【强化学习】基础在线算法：Sarsa算法

Sarsa算法是一种强化学习（Reinforcement Learning, RL）的经典算法，属于时序差分（Temporal Difference, TD）方法。它是一种基于策略的学习算法，用于解决马尔可夫决策过程（Markov Decision Process, MDP）中的问题。简单来说，Sarsa的目标是通过不断地交互，学习如何从当前状态选择最优动作，从而获得最大的累积奖励。

2024-12-11 08:00:00 2026 149

原创【强化学习】策略梯度（Policy Gradient，PG）算法

在强化学习中，Policy Gradient（策略梯度）算法是一类通过优化策略函数直接来求解最优策略的方法。与基于值函数（例如Q学习和SARSA）的方法不同，策略梯度方法直接对策略函数进行建模，目标是通过梯度下降的方法来最大化预期的累积奖励（即期望回报）。这些算法主要适用于连续的动作空间或高维问题，能够在复杂的环境中取得较好的性能。

2024-12-08 08:00:00 6586 109

原创【强化学习】基础离线算法：Q-Learning算法

在强化学习中，Q-Learning 是一种基于值函数的强化学习算法。它通过学习一个状态-动作值函数（Q函数）来选择最优策略。Q-Learning 是一种无模型（model-free）的强化学习方法，意味着它不需要了解环境的动态（即转移概率和奖励函数），而只依赖于与环境的交互。Q-Learning 的目标是通过不断地更新 Q 值，使得智能体能够选择在给定状态下能获得最大累积奖励的动作。Q-Learning 的一个重要特点是，它保证在探索足够多的状态-动作对后，最终会收敛到最优策略。

2024-12-06 08:00:00 2028 165

原创【SARL】单智能体强化学习（Single-Agent Reinforcement Learning）《纲要》

强化学习（Reinforcement Learning，简称 RL）是一种让机器“通过尝试和错误学习”的方法。它模拟了人类和动物通过经验积累来学会做决策的过程，目的是让机器或智能体能够在复杂的环境中选择最优的行为，从而获得最大的奖励。我们在这里介绍了单智能体强化学习的相关算法。

2024-12-04 08:00:00 2571 169

原创【RL Application】语义分割中的强化学习方法

强化学习（Reinforcement Learning, RL）在语义分割中的实现可以通过以下几种方式展开：将分割任务建模为一个强化学习问题，其中环境是图像，动作是分割操作，奖励则衡量分割的质量

2024-12-02 08:00:00 1546 187

原创【RL Base】强化学习：信赖域策略优化（TRPO）算法

在强化学习（RL）领域，如何稳定地优化策略是一个核心挑战。2015 年，由 John Schulman 等人提出的信赖域策略优化（Trust Region Policy Optimization, TRPO）算法为这一问题提供了优雅的解决方案。TRPO 通过限制策略更新的幅度，避免了策略更新过大导致的不稳定问题，是强化学习中经典的策略优化方法之一。TRPO 是一种基于策略梯度的优化算法，其目标是通过限制新策略和旧策略之间的差异来确保训练的稳定性。TRPO 在高维、连续动作空间中表现尤为出色

2024-11-30 13:01:27 2617 146

原创【RL Base】强化学习核心算法：深度Q网络（DQN）算法

深度Q网络（DQN）是深度强化学习的核心算法之一，由Google DeepMind在2015年的论文《Playing Atari with Deep Reinforcement Learning》中提出。DQN通过结合深度学习和强化学习，利用神经网络近似Q值函数，在高维、连续状态空间的环境中表现出了强大的能力。

2024-11-28 08:00:00 5387 106

原创【Reinforcement Learning】强化学习下的多级反馈队列（MFQ）算法

在强化学习（Reinforcement Learning, RL）相关背景下，多级反馈队列（Multilevel Feedback Queue, MFQ）算法可以作为调度问题的求解框架，用于优化资源分配和任务调度策略。在这种情况下，MFQ的概念和机制可以被调整为一种面向学习的形式，其中调度策略通过强化学习算法来动态优化。

2024-11-26 08:00:00 2727 131

原创【RL Base】多级反馈队列（MFQ）算法

多级反馈队列（MFQ）是一种经典的调度算法，广泛用于操作系统任务调度，也可用于强化学习环境中。它是一种灵活且高效的调度机制，通过动态调整任务在不同队列中的优先级，实现公平性和响应时间的优化。多级反馈队列通过使用多个优先级队列，根据任务的运行时间和系统负载动态调整任务的优先级。高优先级队列处理短任务或新到达的任务，低优先级队列处理较长的任务，且允许任务随着时间从一个队列转移到另一个队列。

2024-11-24 08:00:00 2899 169

原创【MARL】深入理解多智能体近端策略优化（MAPPO）算法与调参

MAPPO 是一种多智能体强化学习算法，基于单智能体的 PPO (Proximal Policy Optimization) 算法进行了扩展，专门设计用于解决多智能体协作和竞争环境中的决策问题。要想更好的理解MAPPO算法的原理机制，得先从On-Policy 和 Off-Policy 两种算法类型出发。在强化学习中，on-policy 和 off-policy 算法根据策略更新时是否依赖当前策略的经验来区分。以下是两类算法的定义和常见算法列表。

2024-11-22 08:00:00 9531 216

原创【Academic tailor】学术小裁缝必备知识点：全局注意力机制（GAM）

如何做好一个学术小裁缝？1.广泛阅读；2.优化创新：西红柿炒鸡蛋；3.内容美化；4..投稿技术；5.保命方法。全局注意力机制（Global Attention Mechanism, GAM）由《Global Attention Mechanism: Retain Information to Enhance Channel-Spatial Interactions》提出，是一篇针对计算机视觉任务提出的方法。这篇文章聚焦于增强深度神经网络中通道和空间维度之间的交互，以提高分类任务的性能。

2024-11-20 08:00:00 2749 209

原创【SSL-RL】增强Curiosity-driven Exploration (CDE)算法的探索能力

为了进一步提升Curiosity-driven Exploration (CDE)算法在强化学习任务中的性能，可以考虑通过以下几个方面的改进来优化智能体的探索行为和效率.

2024-11-18 08:00:00 7963 217

原创【SSL-RL】自监督强化学习：好奇心驱动探索 (CDE)算法

好奇心驱动探索，Curiosity-driven Exploration (CDE)算法是一种用于自监督强化学习的算法，旨在通过激发智能体的“好奇心”来引导其探索未知环境。好奇心驱动的探索机制主要基于智能体对环境的预测误差：当智能体遇到无法准确预测的情境时，会将其视为一个具有“新奇性”的事件，从而被激励去探索该区域。CDE适用于稀疏奖励或无奖励的环境，通过自监督的方式增强智能体的探索能力，使其能够自主地发现和学习新的环境结构和行为模式。

2024-11-15 08:00:00 5299 221

原创【SSL-RL】自监督强化学习：自预测表征 (SPR)算法

自预测表征，Self-Predictive Representations (SPR)算法是一种用于自监督强化学习的算法，旨在通过学习预测未来的潜在状态来帮助智能体构建有用的状态表示。SPR在强化学习任务中无需依赖稀疏或外部奖励，通过自监督学习的方法获得环境的潜在结构和动态信息。这种方法特别适合高维观测环境（如图像）或部分可观测的任务。

2024-11-13 08:00:00 5730 210

原创【SSL-RL】自监督强化学习：随机潜在演员评论家 (SLAC)算法

2024-11-11 08:00:00 5440 214

原创【SSL-RL】自监督强化学习：引导式潜在预测表征 (BLR)算法

引导式潜在预测表征，Bootstrap Latent-predictive Representations (BLR) 是一种创新的自监督学习方法，用于从高维观测中提取潜在的、能够进行预测的状态表示。这种方法特别适用于强化学习场景，在稀疏奖励和无奖励的环境下，BLR通过构建一种自我引导的表示学习机制，使得智能体能够从环境观测中提取有用的潜在表示。BLR主要通过自Bootstrap Latent-predictive Representations监督目标训练模型，以预测未来的潜在状态，从而使得智能体可以

2024-11-09 08:00:00 4920 178

原创【SSL-RL】自监督强化学习：解耦表示学习 (DRL)算法

解耦表示学习，Decoupled Representation Learning (DRL) 是一种用于在自监督强化学习（Self-Supervised Reinforcement Learning, SSRL）中学习解耦表示的算法。DRL旨在通过将表示学习和策略学习过程分离，以实现更高效的学习。该算法适用于许多强化学习场景，特别是在高维观测（如图像、视频等）中，有效提取低维、独立的状态表示，帮助智能体更好地理解环境并进行决策。

2024-11-07 08:00:00 2708 196

原创【SSL-RL】自监督强化学习：随机网络蒸馏（RND）方法

随机网络蒸馏（RND）是一种自监督学习方法，旨在提高强化学习中的探索效率。该算法由 Chesney et al. 在论文《Random Network Distillation as a Method for Intrinsic Motivation》提出，RND 利用随机神经网络的输出与环境状态的真实特征之间的差异来生成内在奖励，鼓励智能体探索未见过的状态。这种方法尤其适用于外部奖励稀疏的环境。

2024-11-04 08:00:00 2573 228

原创【SSL-RL】自监督强化学习：Plan2Explore算法

Plan2Explore是自监督强化学习中的一项创新算法，旨在解决探索问题，尤其是在没有外部奖励信号或奖励稀疏的情境下，如何让智能体有效探索环境。Plan2Explore通过自监督的方式来提高智能体对环境的探索能力，不依赖外部奖励。

2024-11-01 08:00:00 4263 219

原创【SSL-RL】自监督强化学习：对比预测编码（CPC）算法

Contrastive Predictive Coding (CPC) 是一种用于学习有效表示的自监督学习方法，它可以用于强化学习环境中来帮助智能体学习有用的状态表示。CPC主要通过对序列数据进行建模，并通过对比学习（Contrastive Learning）来提取全局特征。CPC的核心思想是最大化当前观察和未来潜在特征的互信息，进而学习到有用的表征。CPC算法由DeepMind提出，它的主要目的是减少无监督学习中对标签的依赖，同时最大化局部信息和全局特征之间的关联。

2024-10-30 08:00:00 2189 217

原创【Hierarchical RL】不允许你不了解分层强化学习（总结篇）

分层强化学习从月初更新到了月中，也准备告一段落了，后续深入研究强化学习，分层的理念多多少少都会涉及。面对复杂场景下的智能体决策问题，如何将复杂问题简单化总是不可避免的。如果后续还有值得分享算法，也会再开单文介绍。

2024-10-28 08:00:00 5346 233

原创【SSL-RL】基于好奇心驱动的自监督探索机制（ICM算法）

Intrinsic Curiosity Module (ICM) 是一种用于强化学习的内在奖励机制，旨在解决传统强化学习中在稀疏奖励场景下，智能体难以学习有效策略的问题。该算法由 Deepak Pathak 等人在论文《Curiosity-driven Exploration by Self-supervised Prediction》中提出。ICM 是通过引入“好奇心”作为一种内在动机，帮助智能体在缺乏外部奖励的情况下探索环境并获取经验，从而提高强化学习的效率。

2024-10-26 08:00:00 6649 212

原创【SSL-RL】自监督强化学习：事后经验回放 (HER)算法

事后经验回放，Hindsight Experience Replay (HER) 是一种在稀疏奖励强化学习环境下提高智能体学习效率的策略。稀疏奖励问题是指智能体在多数状态下无法获得有价值的反馈，因为奖励信号极其稀少或完全没有。HER通过回顾智能体过去未能实现的目标，将这些“失败”的经验转换为有价值的学习机会，从而极大地提高了智能体在稀疏奖励场景中的学习效率。

2024-10-24 08:00:00 5097 221

原创【RL Latest Tech】自监督强化学习（SSL-RL）：理论与方法

自监督强化学习（Self-Supervised Reinforcement Learning，SSL-RL）是一种通过让智能体在没有明确外部奖励信号的情况下，自主地从环境中学习表示和特征的强化学习方法。其核心思想是智能体通过自主生成目标或利用环境中的潜在结构，学习到有用的特征，以便在以后更高效地处理任务。自监督强化学习的核心优势在于能够提高样本效率，减少对外部奖励信号的依赖，并促使智能体在丰富的环境中自主发现新的策略和行为。

2024-10-22 08:00:00 5514 233

原创【Hierarchical RL】离线策略修正分层强化学习（HIRO）算法

离线策略修正分层强化学习，Hierarchical Reinforcement Learning with Off-Policy Correction (HIRO) 是一种基于分层强化学习的算法，旨在解决长时间跨度和稀疏奖励问题。HIRO 特别引入了离策略（off-policy）校正机制，允许高层策略利用低层策略的经验，而不会因为低层策略的更新而产生偏差。

2024-10-20 08:00:00 2145 229

原创【Hierarchical RL】动态分层强化学习（DHRL）算法

动态分层强化学习，Dynamic Hierarchical Reinforcement Learning (DHRL) 是一种自适应分层强化学习算法，其目标是根据任务和环境的复杂性动态地构建、修改和利用分层策略。DHRL 不仅仅是预定义层次结构的简单执行，而是允许代理在学习过程中根据需要动态生成和调整分层策略，从而实现更好的任务分解和高效学习。DHRL 扩展了传统的分层强化学习（HRL），通过动态调整层次和策略，使其适应环境中的变化和不确定性。

2024-10-18 08:00:00 2692 222

原创【Hierarchical RL】Options Framework（选项框架）

Options Framework（选项框架）是分层强化学习中的一种经典方法，旨在通过将动作抽象化为**选项（Options）**来简化复杂任务的学习过程。基于Sutton等人提出的选项框架（Options Framework），其中选项是从一个子任务执行到完成的高层决策链。高层决策什么时候调用特定选项，低层负责具体执行选项的策略。选项框架允许智能体在多个时间步内选择并执行较高级别的策略，而不仅仅是在每个时间步选择单个动作。通过这种方式，智能体可以更好地解决长时间跨度的任务。

2024-10-16 08:00:00 1404 212

Dijkstra算法python实现

Dijkstra算法，全称迪杰斯特拉算法，是由荷兰计算机科学家艾兹赫尔·戴克斯特拉（Edsger W. Dijkstra）在1956年提出的，是一种用于解决图中的最短路径问题的算法。这种算法适用于带权重的图，其中每条边有一个非负的权重值。

2025-03-06

A*算法（Python）

2025-02-27

RL Base强化学习：信赖域策略优化（TRPO）算法TensorFlow实现

2024-11-23

RL Base强化学习：信赖域策略优化（TRPO）算法Pytorch 实现

2024-11-23

【Academic tailor】学术小裁缝必备知识点：全局注意力机制（GAM）pytorch

2024-11-23

【Academic tailor】学术小裁缝必备知识点：全局注意力机制（GAM）TensorFlow

【Academic tailor】学术小裁缝必备知识点：全局注意力机制（GAM）注意力机制是深度学习中的重要技术，尤其在序列到序列（sequence-to-sequence）任务中广泛应用，例如机器翻译、文本摘要和问答系统等。这一机制由 Bahdanau 等人在其论文《Neural Machine Translation by Jointly Learning to Align and Translate》中首次提出。以下将详细介绍这一机制的背景、核心原理及相关公式。全局注意力机制（Global Attention Mechanism, GAM）由《Global Attention Mechanism: Retain Information to Enhance Channel-Spatial Interactions》提出，是一篇针对计算机视觉任务提出的方法。这篇文章聚焦于增强深度神经网络中通道和空间维度之间的交互，以提高分类任务的性能。与最早由 Bahdanau 等人提出的用于序列到序列任务的注意力机制不同，这篇文章的重点是针对图像分类任务，并未专注于序

2024-11-23

MADRL基于MADRL的单调价值函数分解（QMIX）算法

基于MADRL的单调价值函数分解（Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning）QMIX 是一种用于多智能体强化学习的算法，特别适用于需要协作的多智能体环境，如分布式控制、团队作战等场景。QMIX 算法由 Rashid 等人在 2018 年提出，其核心思想是通过一种混合网络（Mixing Network）来对各个智能体的局部 Q 值进行非线性组合，从而得到全局 Q 值。在多智能体强化学习中，每个智能体都需要基于自身的观测和经验来学习策略。在一个协作环境中，多个智能体的决策往往相互影响，因此仅考虑单个智能体的 Q 值并不足够。直接对整个系统的 Q 值进行建模在计算上是不可行的，因为状态和动作空间会随着智能体数量呈指数增长。

2024-11-08

自预测表征 (SPR)算法

2024-11-05

课程设计随机潜在演员评论家 (SLAC)算法

随机潜在演员评论家，Stochastic Latent Actor-Critic (SLAC)算法是一种用于连续控制任务的自监督强化学习算法，由Google Brain提出。SLAC结合了自监督学习和深度强化学习，通过构建一个隐变量模型（Latent Variable Model）来捕捉环境的潜在状态，并使用这些状态来进行策略优化。SLAC特别适合于高维观测（如图像）和部分可观测的环境。SLAC算法的主要目标是通过学习潜在空间的动态来更好地估计环境状态，进而提升智能体的策略学习效率。代码解析潜在状态表示学习：SLAC模型将高维观测编码为潜在状态，使得模型在潜在空间中进行策略选择和动态建模。 Actor-Critic策略优化：在潜在空间中使用SAC算法，通过Critic网络估计潜在状态和动作的价值，Actor网络选择最大化长期回报的动作。重构和预测损失：SLAC模型通过重构和预测损失优化潜在状态表示，使得潜在空间能够有效描述环境动态。

2024-11-05

SSL-RL自监督强化学习：事后经验回放 (HER)算法

【SSL-RL】自监督强化学习：事后经验回放 (HER)算法事后经验回放，Hindsight Experience Replay (HER) 是一种在稀疏奖励强化学习环境下提高智能体学习效率的策略。稀疏奖励问题是指智能体在多数状态下无法获得有价值的反馈，因为奖励信号极其稀少或完全没有。HER通过回顾智能体过去未能实现的目标，将这些“失败”的经验转换为有价值的学习机会，从而极大地提高了智能体在稀疏奖励场景中的学习效率。 HER算法最早由OpenAI团队提出，主要用于解决目标导向的强化学习任务，其中智能体的目标是达到某个特定的状态（例如到达某个地点或完成某个任务），但由于奖励稀疏，智能体很难获得足够的反馈进行有效学习。（这已经是被广泛利用的机制了）

2024-10-23

SSL-RL自监督强化学习：对比预测编码（CPC）算法

【SSL-RL】自监督强化学习：对比预测编码（CPC）算法 Contrastive Predictive Coding (CPC) 是一种用于学习有效表示的自监督学习方法，它可以用于强化学习环境中来帮助智能体学习有用的状态表示。CPC主要通过对序列数据进行建模，并通过对比学习（Contrastive Learning）来提取全局特征。CPC的核心思想是最大化当前观察和未来潜在特征的互信息，进而学习到有用的表征。 CPC算法由DeepMind提出，它的主要目的是减少无监督学习中对标签的依赖，同时最大化局部信息和全局特征之间的关联。 CPC是一种强大的自监督学习方法，通过对比学习和最大化互信息来学习有用的潜在表示。它可以有效地应用于强化学习中的状态表示学习，尤其适用于没有监督信号或奖励稀疏的场景。CPC为自监督学习和强化学习提供了一种新的思路，其对序列数据的建模能力使其在许多任务中具有广泛的应用前景。

2024-10-23

SSL-RL自监督强化学习：随机网络蒸馏（RND）方法

【SSL-RL】自监督强化学习：随机网络蒸馏（RND）方法随机网络蒸馏（RND）是一种自监督学习方法，旨在提高强化学习中的探索效率。该算法由 Chesney et al. 在论文《Random Network Distillation as a Method for Intrinsic Motivation》提出，RND 利用随机神经网络的输出与环境状态的真实特征之间的差异来生成内在奖励，鼓励智能体探索未见过的状态。这种方法尤其适用于外部奖励稀疏的环境。随机网络蒸馏（RND）通过引入自监督的内在奖励机制，有效解决了强化学习中探索不足的问题。其核心思想是利用随机网络与可学习网络之间的输出差异来激励智能体探索，尤其适合外部奖励稀疏的场景。尽管 RND 在提高学习效率方面表现出色，但其计算开销和训练不稳定性仍需进一步研究和优化。随着强化学习技术的不断进步，RND 未来有望在更多实际应用中展现其潜力。

2024-10-23

SSL-RL基于好奇心驱动的自监督探索机制（ICM算法）

【SSL-RL】基于好奇心驱动的自监督探索机制（ICM算法） ntrinsic Curiosity Module (ICM) 是一种用于强化学习的内在奖励机制，旨在解决传统强化学习中在稀疏奖励场景下，智能体难以学习有效策略的问题。该算法由 Deepak Pathak 等人在论文《Curiosity-driven Exploration by Self-supervised Prediction》中提出。ICM 是通过引入“好奇心”作为一种内在动机，帮助智能体在缺乏外部奖励的情况下探索环境并获取经验，从而提高强化学习的效率。 ICM 模块的核心思想是利用智能体对环境状态变化的预测误差来产生内在奖励，以鼓励智能体进行探索。这种内在奖励机制与任务的外部奖励无关，因此在奖励稀疏或完全没有外部奖励的情况下，ICM 也能够引导智能体继续学习。下图展示了ICM是如何作用的。

2024-10-23

基于区块链的系统架构设计报告

2024-10-10

【Hierarchical RL】离线策略修正分层强化学习（HIRO）算法代码

【Hierarchical RL】离线策略修正分层强化学习（HIRO）算法代码离线策略修正分层强化学习，Hierarchical Reinforcement Learning with Off-Policy Correction (HIRO) 是一种基于分层强化学习的算法，旨在解决长时间跨度和稀疏奖励问题。HIRO 特别引入了离策略（off-policy）校正机制，允许高层策略利用低层策略的经验，而不会因为低层策略的更新而产生偏差。该算法是由 K. Nachum 等人在 2018 年的论文中首次提出的。这篇论文介绍了一种新的分层强化学习方法，通过引入离策略校正机制来解决高层策略与低层策略之间的协调问题，从而应对稀疏奖励和长时间跨度的任务。论文详细描述了 HIRO 的原理、算法和实验结果，并展示了该方法在长时间跨度任务中的显著性能提升。

2024-10-10

【Hierarchical RL】动态分层强化学习（DHRL）算法代码

【Hierarchical RL】动态分层强化学习（DHRL）算法代码动态分层强化学习，Dynamic Hierarchical Reinforcement Learning (DHRL) 是一种自适应分层强化学习算法，其目标是根据任务和环境的复杂性动态地构建、修改和利用分层策略。DHRL 不仅仅是预定义层次结构的简单执行，而是允许代理在学习过程中根据需要动态生成和调整分层策略，从而实现更好的任务分解和高效学习。 DHRL 扩展了传统的分层强化学习（HRL），通过动态调整层次和策略，使其适应环境中的变化和不确定性。这种方法能够处理复杂任务，特别是那些需要灵活调整策略或面临多种不同子任务的情景。

2024-10-10

【Hierarchical RL】Options Framework（选项框架）python代码

【Hierarchical RL】Options Framework（选项框架）python代码 === 可用于毕业设计项目 Options Framework（选项框架）是分层强化学习中的一种经典方法，旨在通过将动作抽象化为**选项（Options）**来简化复杂任务的学习过程。基于 Sutton 等人提出的选项框架（Options Framework），其中选项是从一个子任务执行到完成的高层决策链。高层决策什么时候调用特定选项，低层负责具体执行选项的策略。选项框架允许智能体在多个时间步内选择并执行较高级别的策略，而不仅仅是在每个时间步选择单个动作。通过这种方式，智能体可以更好地解决长时间跨度的任务，并且可以复用已学习的子任务。

2024-10-08

【Hierarchical RL】隐空间分层强化学习（HRL-LS ）算法python代码

【Hierarchical RL】隐空间分层强化学习（HRL-LS ）算法python代码隐空间分层强化学习，Hierarchical Reinforcement Learning with Latent Space (HRL-LS) 是一种分层强化学习（Hierarchical Reinforcement Learning, HRL）算法，旨在通过在隐空间（Latent Space）中进行策略优化，来处理高维复杂任务中的长期依赖问题。该算法提出了一种新的框架，能够同时利用分层结构和潜在变量模型，来提高在复杂环境中的学习效率。

2024-10-08

【Hierarchical RL】分层演员-评论家（Hierarchical Actor-Critic ）算法代码

【Hierarchical RL】分层演员-评论家（Hierarchical Actor-Critic ）算法代码 Hierarchical Actor-Critic (HAC) 算法是一种用于分层强化学习（Hierarchical Reinforcement Learning, HRL）的算法，由Levy等人在2019年提出。HAC的目的是通过分层结构，将复杂任务分解为不同的时间尺度的子任务，从而更高效地学习策略。该算法使用了两层的Actor-Critic架构来实现策略和值函数的学习，并通过子任务的分解来降低学习的难度。背景：分层比非分层有潜力以更高的样本效率解决顺序决策任务，因为分层可以将任务分解为只需要短序列决策的子任务集。为了实现这种快速学习的潜力，分层需要能够并行学习它们的多层策略，以便这些更简单的子问题可以同时解决。然而，并行学习多层策略是困难的，因为它本质上是不稳定的:在层次结构的一个层次上的策略变化可能会导致层次结构中更高层次上的过渡和奖励函数的变化，这使得联合学习多层策略变得困难。

2024-10-08

【Hierarchical RL】分层强化学习：Hierarchical-DQN算法

【Hierarchical RL】分层强化学习：Hierarchical-DQN算法代码 Hierarchical-DQN (Hierarchical Deep Q-Network) 是一种分层强化学习算法，专门设计用于解决复杂的任务，通过将任务分解为层次化的子任务来学习。它结合了深度 Q 网络（DQN）和分层强化学习的思想，将复杂任务分解为多个具有不同时间尺度的子任务。Hierarchical-DQN 的设计思路和 FeUdal Networks 类似，都是通过层次结构来解决长时间跨度的任务，但 Hierarchical-DQN 的具体实现有所不同，尤其在策略的选择和值函数的更新方面。

2024-10-07

【RL Latest Tech】分层强化学习：FeUdal Networks算法程序

【RL Latest Tech】分层强化学习：FeUdal Networks算法程序代码大学生创新创业训练计划代码程序资源、项目资源等 FeUdal Networks（FuN）是一种分层强化学习（Hierarchical Reinforcement Learning, HRL）算法，由Google DeepMind团队提出。该算法的灵感来源于层级控制结构，将任务分解为高层目标和低层执行细节，从而提高强化学习在复杂环境中的效率。与传统的强化学习算法不同，FeUdal Networks将学习过程分为不同的层次，每个层次的角色不同，但都为共同完成任务服务。

2024-10-03

【RL Latest Tech】分层强化学习：MAXQ分解算法python实现

【RL Latest Tech】分层强化学习：MAXQ分解算法python实现 MAXQ分解是一种用于分层强化学习（Hierarchical Reinforcement Learning, HRL）的算法，由Thomas G. Dietterich提出。该算法通过将复杂的任务分解成更小的子任务来简化问题，并利用这些子任务来构建更复杂的策略。 MAXQ分解的主要思想是将一个复杂的Markov决策过程（MDP）分解成一系列嵌套的子MDP，以便更容易解决。MAXQ算法引入了一种分层的结构，将原始任务逐步分解为多个子任务，从而形成一个任务树（task hierarchy），并通过各个子任务的求解来最终解决整个任务。

2024-10-02

【RL Latest Tech】分层强化学习：Option-Critic架构算法（简单实现代码）

【RL Latest Tech】分层强化学习：Option-Critic架构算法（简单实现代码） ======================================================= Option-Critic架构算法（简单实现代码） ======================================================= 分层强化学习（Hierarchical Reinforcement Learning, HRL）通过将复杂问题分解为更小的子问题，显著提高了强化学习算法在解决高维状态空间和长期目标任务中的效率。Option-Critic架构是分层强化学习中一种非常有影响力的方法，专门用于自动发现和优化子策略（称为“Option”）。它是在经典的Options框架基础上提出的，用来处理分层决策问题，特别是可以在没有明确的子目标定义的情况下自动学习子策略。在Option-Critic架构中，最核心的思想是使用 “选项” 来建模高级行为策略。每个选项代表一段策略或行为，负责特定的子任务。

2024-09-30

RL Latest Tech分层强化学习：Option-Critic架构算法

RL Latest Tech】分层强化学习：Option-Critic架构算法 ========================================== 包含算法实现的这个项目，完整的项目 ========================================== 分层强化学习（Hierarchical Reinforcement Learning, HRL）通过将复杂问题分解为更小的子问题，显著提高了强化学习算法在解决高维状态空间和长期目标任务中的效率。Option-Critic架构是分层强化学习中一种非常有影响力的方法，专门用于自动发现和优化子策略（称为“Option”）。它是在经典的Options框架基础上提出的，用来处理分层决策问题，特别是可以在没有明确的子目标定义的情况下自动学习子策略。 ————————————————

2024-09-30

离线强化学习：行为规范Actor Critic (BRAC) 算法实现

离线强化学习：行为规范Actor Critic (BRAC) 算法实现代码 =================================================================== 内容： 1.BRAC算法伪代码 2.BRAC算法python实现代码 3.BRAC算法CartPole环境实现代码使用方法： pip下载相应版本的库，直接运行即可，可用于课程实验 =================================================================== 行为规范Actor Critic 算法（Behavior Regularized Actor Critic，BRAC）是一种专门为离线强化学习设计的算法，其主要目标是通过行为正则化（Behavior Regularization）来解决由于数据分布偏差导致的策略退化问题。 BRAC 算法是由Yifan Wu et al. 在 2019 年的论文“Behavior Regularized Offline Reinforcement Learning”中提出的。

2024-09-25

RL Latest Tech离线强化学习：保守Q学习 (CQL) 算法

RL Latest Tech】离线强化学习：保守Q学习 (CQL) 算法 =================================================================== 包含CQL算法的两个环境实现： 1.CartPole-v1环境 2.halfcheetah-medium-v2环境 =================================================================== CQL算法简介 Conservative Q-Learning (CQL) 是由Sergey Levine及其团队于2020年提出的一种针对离线强化学习的算法。CQL旨在解决离线强化学习中的两个主要问题：分布偏移（Distributional Shift）和过度乐观的值函数估计（Overestimation of Q-Values）。CQL通过对Q值的保守约束，确保学习到的策略更为稳健，避免过度依赖于离线数据中的稀有样本或未充分探索的区域。和本声明。

2024-09-23

RL基于迁移学习的强化学习（RL-TL）

【RL】基于迁移学习的强化学习（RL-TL） ===================================================================== 包含基于迁移学习的强化学习（RL-TL）算法实现的可执行代码 ===================================================================== 基于迁移学习的强化学习（Reinforcement Learning with Transfer Learning，简称 RL-TL）是将迁移学习（Transfer Learning）的概念应用于强化学习（Reinforcement Learning，简称 RL）中的一种方法。其核心思想是在强化学习的环境中，利用已有的经验或在其他任务中学到的知识来提升学习效率和表现。这样可以减少从零开始学习的时间和样本需求，尤其在数据稀缺或任务复杂的场景中。

2024-09-19

MADRL面向角色的多智能体强化学习（ROMA）算法代码

【MADRL】面向角色的多智能体强化学习（ROMA）算法代码 =================================================================== 包含ROMA算法实现的项目代码 =================================================================== 在多智能体系统中，如何让各个智能体有效协作、合理分工，最大化整体性能是一个核心问题。面向角色的多智能体强化学习（Role-Oriented Multi-Agent Reinforcement Learning, ROMA）算法正是为了解决这一问题而设计的。在 ROMA 中，“角色”（Role）是多智能体协作中的核心概念。智能体被分配不同的角色，每个角色决定智能体在任务中的具体职责和行为模式。通过这种角色导向的方式，ROMA 试图提高多智能体系统中的协作效率，同时使得策略学习更加稳定和高效。

2024-09-18

MADRL多智能体价值分解网络（VDN）算法

【MADRL】多智能体价值分解网络（VDN）算法 ===================================================================== 资源包含VDN、QMIX算法的项目代码 ===================================================================== 多智能体强化学习（MARL, Multi-Agent Reinforcement Learning）中，一个关键挑战是如何在多个智能体的协作环境下学习有效的策略。价值分解网络（VDN, Value Decomposition Network）是解决这一问题的一种重要方法，特别是在集中训练，分散执行（CTDE, Centralized Training and Decentralized Execution）框架中，VDN提供了一种分解联合价值函数的策略，使得多个智能体可以高效协作并学习。

2024-09-11

MADRL多智能体近端策略优化（MAPPO）算法

【MADRL】多智能体近端策略优化（MAPPO）算法 =================================================================================== 包含MAPPO算法实现的整个项目代码 =================================================================================== 多智能体近端策略优化算法 MAPPO（Multi-Agent Proximal Policy Optimization）是PPO（Proximal Policy Optimization）在多智能体环境中的一种扩展，它通过在多智能体系统中引入PPO的策略优化机制，实现了在协作和竞争环境中更加高效的策略学习。MAPPO是一种基于策略梯度的多智能体强化学习算法，特别适用于混合协作和竞争的多智能体场景。

2024-09-10

MADRL多智能体双延迟深度确定性策略梯度（MATD3）算法

【MADRL】多智能体双延迟深度确定性策略梯度（MATD3）算法 =================================================================================== 包含多智能体双延迟深度确定性策略梯度（MATD3）算法的项目代码 ================================================================================== MATD3（Multi-Agent Twin Delayed Deep Deterministic Policy Gradient）是基于TD3（Twin Delayed DDPG）算法的多智能体版本。TD3是深度确定性策略梯度（DDPG）算法的一个改进版本，主要针对其在确定性策略学习中的一些不稳定性进行了增强。MATD3则扩展了TD3，使其能够在多智能体环境下进行训练和执行。

2024-09-07

MADRL多智能体深度确定性策略梯度（MADDPG ）算法

【MADRL】多智能体深度确定性策略梯度（MADDPG ）算法 ================================================================================== 包含MADDPG算法运行的程序代码 ================================================================================== MADDPG (Multi-Agent Deep Deterministic Policy Gradient) 是一种用于多智能体强化学习环境的算法。它由2017年发布的论文《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》提出。MADDPG结合了深度确定性策略梯度（DDPG）算法的思想，并对多智能体场景进行了扩展，能够处理混合的协作与竞争环境。

2024-09-07

论文复现-V型稀疏阵列实现二维DOA估计

========================================== 资源中包含: 1.中文译文word文件 2.实现MATLAB相关代码 ========================================== 摘要：提出了一种新的稀疏阵列几何结构，用于二维波达方向估计。该阵列结构为V型稀疏阵列，由两个相互交叉的线性部分组成。稀疏采样特性提高了稀疏阵列的自由度。在这方面，发展了V形互质(VCA)和V形嵌套阵列(VNA)结构。它可以分辨MN信号源的方位角和仰角，每个部分有个阵元，阵元总数为个。VNA可以用2N个阵元来分辨自由度的信号源。该方法代替了二维网格搜索，以高效的计算方式计算了方位和仰角估计的一维搜索。为了解决二维场景中的配对问题，利用两部分的互协方差矩阵进行二维配对进行波达方向估计。通过数值仿真对该方法的性能进行了评估，结果表明，与传统的互质平面阵列相比，所提出的阵列结构VCA和VNA可以提供更少的阵元。

2024-07-22

智能方法求解-圆环内传感器节点最大最小距离分布

========================================================= 资源中包含: 1.word全文《智能方法求解-圆环内传感器节点最大最小距离分布》 2.Python相关代码《智能方法求解-圆环内传感器节点最大最小距离分布》 ========================================================= 问题重述假设有个传感器节点随机分布在半径为公里的圆区域内(如图1所示)，现要求:通过调整各传感器的位置，使其稀疏分布于外环半径为，内环半径为的圆环区域内(即保证圆环内的邻近传感器节点之间的距离尽可能地远，以减轻电磁互扰)。请你运用所学知识完成以下工作: 1.根据题目背景建立传感器位置优化模型 2.提出相关优化算法并求解该数学模型 3.运用相关优化软件给出仿真结果

2024-07-22

最优化方法求解-圆环内传感器节点最大最小距离分布

========================================== 资源中包含: 1.word文档全文-最优化方法求解-圆环内传感器节点最大最小距离分布 2.MATLAB代码-最优化方法求解-圆环内传感器节点最大最小距离分布 ========================================== 假设有个传感器节点随机分布在半径为公里的圆区域内(如图1所示)，现要求:通过调整各传感器的位置，使其稀疏分布于外环半径为，内环半径为的圆环区域内(即保证圆环内的邻近传感器节点之间的距离尽可能地远，以减轻电磁互扰)。请你运用所学知识完成以下工作: 1.根据题目背景建立传感器位置优化模型 2.提出相关优化算法并求解该数学模型 3.运用相关优化软件给出仿真结果

2024-07-22

《毕业设计》基于遗传算法的旅游路程和资金需求最优规划方案

========================================== 资源中包含: 1.毕业设计论文全文 2.毕业设计的相关代码 ========================================== 摘要：随着社会经济的蓬勃发展，民众对于旅游的热爱与追求持续升温，展现出不断增长的热情与渴望。本文提出了一种基于遗传算法的旅游路程和资金需求最优规划方案。该方法旨在解决旅游者在规划行程时面临的关键问题，即如何在满足旅游需求的同时，实现旅行路程最短和资金需求最低。通过引入遗传算法，本文能够将这一复杂问题转化为一个优化问题，并在给定的约束条件下寻找最优解。本文首先构建了旅游路程和资金需求的数学模型，该模型综合考虑了旅游者的出行距离、住宿费用、餐饮费用等多个因素。然后，利用遗传算法通过不断迭代和进化，能够找到满足旅游者需求的最优行程规划方案。实验结果表明，基于遗传算法的旅游路程和资金需求最优规划方案能够有效提高旅游行程的效率和经济效益。与传统的规划方法相比，该方法在寻找最优解方面具有更高的准确性和效率。因此，本文的研究对于旅游规划领域具有重要的理论意义和实践价值。

2024-07-11

论文复现-基于随机蕨的快速相位差DOA估计

基于随机蕨的快速相位差DOA估计 =========================================================== @@@包含原文、译文、MATLAB复现代码 =========================================================== 摘要信号的到达方向(DOA)信息在通信、定位、目标跟踪等方面具有重要意义。基于频域的时延估计能够在子样本精度下获得DOA；然而，它受到相位包裹问题的困扰。本文提出了一种基于频率分集的方法来克服相位包裹问题。受机器学习技术的随机蕨启发，提出了一种加快搜索过程的算法。通过仿真和实验测试，基于三种不同的信号模型对算法的性能进行了评估。结果表明，在保持相同精度的情况下，使用随机蕨可以将搜索时间减少到穷尽法搜索时间的1/6。该算法的DOA估计误差较低，优于基于频分集的基准算法。 ================================================================== 关键词：到达方向，随机蕨，机器学习，超声波，相位差

2024-06-27

FGSM、PGD、BIM对抗攻击算法实现资源

FGSM、PGD、BIM对抗攻击算法实现资源，需要按文章下载库 class BIM(Attack): def __init__(self, model, eps=8 / 255, alpha=2 / 255, steps=10): super().__init__("BIM", model) self.eps = eps self.alpha = alpha if steps == 0: self.steps = int(min(eps * 255 + 4, 1.25 * eps * 255)) else: self.steps = steps self.supported_mode = ["default", "targeted"]

2023-12-16

LetNet、AlexNet、ResNet网络模型实现手写数字识别

LetNet、AlexNet、ResNet网络模型实现手写数字识别，可以直接运行包含LetNet、AlexNet、ResNet网络模型的代码，MINST手写库，方便修改。

2023-12-16

1995-2021年电赛国赛仪器仪表类赛题汇总

1995-2021年电赛国赛仪器仪表类赛题汇总包含了1995年至2021年电赛国赛的仪器仪表类所有赛题。 1.实用信号源的设计和制作（1995年B题） 2.简易电阻、电容和电感测试仪(1995年D题) 3.简易数字频率计( 1997年B题) 4.数字式工频有效值多用表(1999年B题) 5.频率特性测试仪(1999年C题) 6.简易数字存储示波器(2001年B题) 7.波形发生器（2001年A题） 8.低频数字式相位测量仪（ 2003年C题) 9.简易逻辑分析仪(2003年D题) 10正弦信号发生器（2005年A题） 11.集成运放参数测试仪(2005年B题) 12.简易频谱分析仪（2005年C题) 13.音频信号分析仪(2007年A题本科组) 14.数字示波器(2007年C题本科组) 15.积分式直流数字电压表(2007年G题高职高专组) 16.信号发生器（2007年H题） 17.简易数字信号传输性能分析仪(2011年E题) 18.简易自动电阻测试仪(2011年G题) 19.简易频率特性测试仪（2013年E题） 20.80MHz~100MHz频谱分析仪（2015年E题）

2023-07-08

深度学习初学者使用TensorFlow框架还是pytorch框架更合适呢

2023-07-06

TA创建的收藏夹 TA关注的收藏夹

TA关注的人