
RL
文章平均质量分 68
Catherine_he_ye
愿付出与得到成正比,愿所爱成为所求
展开
-
AC的改进算法——TRPO、PPO
TRPO、PPO算法原创 2023-02-19 21:21:32 · 3902 阅读 · 2 评论 -
多智能体强化学习基本概念
MARL基本概念原创 2022-11-14 14:01:17 · 819 阅读 · 0 评论 -
谈起AlphaGo,来看其中的强化学习知识点
谈及AlphaGo中的强化学习知识原创 2022-11-13 21:57:45 · 590 阅读 · 0 评论 -
Actor-Critic方法
Actor-Critic方法王树森深度强化学习基础:actor-critic方法No.1 Value Network & Policy Network拿最近火的奥运举个可能不咋恰当的例子,可以这样理解actor是一个体操运动员,他可以做动作,如果他想拿金牌,他就得改进自己的动作,可是他不知道怎么改进自己,就需要裁判给运动员打分,运动员就知道什么动作分数高什么动作分数低。同时训练策略网络和价值网络,就被称作Actor-Critic Method。No.2 Train the Neural原创 2021-08-04 20:58:13 · 614 阅读 · 0 评论 -
深度强化学习基础:策略学习
深度强化学习基础:策略学习王树森深度强化学习基础:策略学习No.1 Policy Network当有无数个状态和无数个动作时,不可能将每一个状态和动作概率记录在一张表里,这样就无法直接算策略函数,所以得做函数近似,寻出来一个函数来近似策略函数。当用神经网络近似时,…No.2 Policy-Based Reinforcement Learning 策略学习策略学习的目标:改进θ,使J(θ)越大越好。No.3 Policy Gradient 策略梯度No.4 Update policy原创 2021-08-04 19:15:30 · 766 阅读 · 0 评论 -
深度强化学习基础:价值学习
强化学习基础:价值学习王树森深度强化学习基础:价值学习No.1 Deep Q-Network (DQN)DQN 是一个价值学习的方法,用一个神经网络去近似Q*函数。DQN 的输入是s,w为神经网络的参数,输出是对每一个动作a的打分。怎么训练DQN呢? 最常用的是TD算法。No.2 Temporal Difference (TD) LearningTD算法即使不完成旅程,也能更新参数。No.3 TD Learning for DQNNo.4 Summary...原创 2021-08-04 16:32:38 · 844 阅读 · 0 评论 -
深度强化学习的基本概念
Terminology(术语)in RL王树森的B站强化学习视频No.1 state and action 状态和动作state:状态,action:动作,Agent(智能体):动作的发起者.No.2 policy 策略记为π函数policy:根据观测到的状态做出的决策来控制agent运动数学上,policy的π函数定义为概率密度函数。policy function π:(s,a)➡[0,1]: π(a|s)=P(A=a|S=s).No.3 reward 奖励 & re原创 2021-08-04 15:04:03 · 612 阅读 · 2 评论