
强化学习
文章平均质量分 94
transformer_WSZ
You Only Look Once!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
策略梯度与Q-Learning的区别
策略梯度(Policy Gradient, PG)是强化学习中的一类直接优化策略的方法,通过梯度上升(Gradient Ascent)更新策略参数,以最大化期望回报。与Q-Learning等基于值函数的方法不同,PG直接对策略πθa∣sπθa∣s(参数为θ\thetaθ)进行优化,适用于连续动作空间或随机策略的场景。离散动作:策略网络输出离散动作的概率分布(如Softmax)。连续动作:策略网络输出高斯分布的参数(μσμσ),通过采样得到连续值。∇θJθE。原创 2025-04-27 03:21:11 · 981 阅读 · 0 评论 -
DQN讲解
最近我组有同学在探索用RL落地营销场景的可能性,借此机会学习下RL。more。原创 2024-12-09 03:16:00 · 975 阅读 · 0 评论 -
强化学习系列一:Q-Learning及Deep Q-Learning
Q-Learningepsilon greedy strategyfreecodecamp时序差分离线控制算法Q-LearningDeep Q-LearningDeep Reinforcement Learning: Guide to Deep Q-Learning强化学习——从Q-Learning到DQN到底发生了什么?Deep Q Learning之小白价值函数的近似表示与Deep Q-Learning...原创 2020-10-13 21:26:23 · 453 阅读 · 0 评论 -
策略梯度
在看师兄的论文时,里面涉及到强化学习的 Policy Gradient 。看了网上好多博客,觉得公式推导太复杂了,断断续续地持续了三周。今天静下心来看了一遍,发现没有那么难,果然做学术还是不能浮躁啊!前言强化学习是机器学习的一个分支,但是它与我们常见监督式学习不太一样。从学习方式上讲强化学习更加接近人类的学习,例如当你接触一款新的电子游戏的时候,虽然看不懂屏幕的提示,但是经过自己的摸索也能掌握...原创 2019-11-06 21:04:34 · 699 阅读 · 0 评论