WilliamChou123-优快云博客

原创【深度强化学习】离线强化学习（Offline Reinforcement Learning）和在线强化学习（Online Reinforcement Learning）

离线强化学习（Offline Reinforcement Learning）和在线强化学习（Online Reinforcement Learning）是两种强化学习的不同范式，它们的主要区别在于数据的获取方式和使用场景。离线强化学习就像是通过看别人开车的录像学习一样，你使用预先准备好的数据（录像）来学习如何做出最佳决策。离线强化学习更侧重于利用预先收集好的数据进行策略学习，而在线强化学习则更侧重于通过与环境的交互实时地学习和优化策略。

2024-05-27 10:36:25 2096

原创【深度强化学习】多智能体强化学习（MARL）在无线传感网络（WSN）中的应用（二）

当涉及到无线传感器网络（WSN）中的多智能体强化学习（MARL）应用时，以下是一些更多的具体例子：

2023-12-21 23:03:39 604

原创【深度强化学习】多智能体强化学习（MARL）在无线传感网络（WSN）中的应用（一）

在无线传感器网络（Wireless Sensor Networks，WSN）中，多智能体强化学习（MARL）可以应用于优化无线传感器节点的协同操作、资源分配和网络性能。这些应用场景突显了MARL在WSN中的潜在价值，它能够通过智能的学习和协同操作，提高无线传感器网络的效率、能源利用率和鲁棒性。

2023-12-21 22:59:39 792

原创【深度强化学习】多智能体强化学习应用场景

多智能体强化学习（Multi-Agent Reinforcement Learning，MARL）是强化学习领域的一个分支，主要涉及多个智能体协同学习或竞争学习的问题。

2023-12-21 22:49:39 1398

原创【深度强化学习】Double DQN 算法

Double DQN（Double Deep Q-Network）算法的主要好处在于缓解 DQN 在估计 Q-value 时可能出现的过高估计问题。Double DQN 的核心目标是通过引入目标网络来减轻 DQN 中 Q-value 过高估计的问题。总体而言，Double DQN 通过引入目标网络，使得 Q-value 估计更加准确，提高了在深度强化学习任务中的性能表现，尤其在。Double DQN 保留了 DQN 的其他优势，例如经验回放和目标网络，这些优势有助于提高算法的性能和稳定性。

2023-12-17 10:04:26 819 1

原创 NP-hard问题（NP-难问题）

"NP" 的全称是 "Nondeterministic Polynomial time" 的缩写，翻译为中文是“

2023-12-16 23:06:30 7894

原创【深度强化学习】策略网络和价值函数网络分别是什么？

价值函数网络是一个神经网络，用于估计在给定状态或采取某个动作后能够获得的。策略网络是一个神经网络，用于建模智能体的策略，即在。

2023-12-16 21:57:26 2671

原创【深度强化学习】MA-PPO算法

MA-PPO（Multi-Agent Proximal Policy Optimization）算法是基于 PPO 的一种多智能体强化学习算法，旨在处理多智能体环境中的协同问题。MA-PPO 在多智能体环境中的成功关键在于经验共享和中心化-分布式训练，这样不同智能体可以共同学习，提高整体性能。对每个智能体的策略网络进行更新。智能体通过与环境交互，收集经验数据，并将这些数据存储在共享的经验池中，以便其他智能体可以访问和学习。使用值函数网络计算每个智能体的优势函数，衡量其选择的动作相对于平均水平的优越性。

2023-12-16 21:34:13 2096

原创【深度强化学习】PPO算法

PPO是一种用于策略优化的强化学习算法，旨在提高训练的稳定性和效率。其核心思想是通过比较新旧策略，以渐进的方式更新策略，同时引入一个剪切项来控制更新的大小，从而防止过度的策略变化。使用 PPO Loss 函数进行策略网络的更新。PPO Loss 由两部分组成，一部分是优势加权的策略损失，另一部分是剪切项，限制单次更新的幅度。PPO算法的关键在于通过对比新旧策略，引入剪切项，来渐进地更新策略，确保在学习过程中保持相对的稳定性。使用值函数网络计算每个状态的优势函数，即估计的未来累积回报相对于状态值的差异。

2023-12-16 21:33:45 1652

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

qq_40718185的博客