七月算法强化学习第四课学习笔记

最新推荐文章于 2024-06-15 12:24:48 发布

大牙老快板

最新推荐文章于 2024-06-15 12:24:48 发布

阅读量368

点赞数

CC 4.0 BY-SA版权

文章标签：七月在线算法强化学习深度学习数学

本文链接：https://blog.youkuaiyun.com/linkedin_39447410/article/details/78314240

本文从Q值函数出发，介绍SARSA与Q-Learning两种算法，并探讨了在复杂环境中如何利用值函数逼近来应对大规模状态空间的问题。进一步讨论了Deep Q-Learning中经验回放的应用及其优势，并展示了DQN在Atari游戏上的应用案例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Deep Q-Network

1.复习Q值函数

SARSA

2.Q-Learning

如果（s,a）状态太多太复杂怎么办？（围棋、Atari游戏，星际争霸）

拟合值函数Q（s，a）

几种值函数逼近（Value Function Approximation）

值函数

Linear Combination of Features
Neural Network
Decision Tree
Nearest Neighbor

以及任何其他的函数都可能用来拟合值函数

Q-Network

Gradient Descent

3.Deep Q-Learning

Experience Replay

Experience Replay优点：训练数据利用率高，随机才养出来的Experience直接相关性小，可降低训练的Variance

DQN玩Atari

Double DQN

Duelling network模型

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

大牙老快板

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

七月算法强化学习 第一课 学习笔记

大牙的博客

09-25

3100

一、强化学习简介与应用： 1.强化学习定义： 强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。 2.强化学习起源： Artificial Intelligence Control Theory Oper

强化学习笔记之【ACE:一种基于熵规整和因果关系的离线SAC算法】

rvdgdsva的博客

10-17

742

强化学习第5篇.强化学习方向的学习者可以参考或者复刻.2024年ICML文章，ACE:一种基于熵规整和因果关系的离线SAC算法精读

参与评论您还未登录，请先登录后发表或查看评论

七月算法深度学习笔记7--RNN

thystar的专栏

01-06

5179

这套笔记是跟着七月算法五月深度学习班的学习而记录的，主要记一下我再学习机器学习的时候一些概念比较模糊的地方，具体课程参考七月算法官网： http://www.julyedu.com/ RNN：利用神经网络处理序列问题状态和模型之前，我们处理的模型叫做IID数据；网络用sample A 做一次forward，无论是分类还是回归，接下来用B做一次forward，A和B没有关系。这类网络学习到的是一

七月算法机器学习1 机器学习初识

moonlightpeng的博客

06-17

407

目录机器学习是什么 ML和AI 机器学习分类监督学习无监督学习增强式学习RL 算法一览相关资料机器学习是什么 ML和AI 把所有的数据和地图都采集了给系统，处理不了突发的事件，所以传统的方法不行，可以采用机器学习的方法或思想，先给自动驾驶系统一些数据，让它学习。机器学习分类监督学习样本的特征，还应有判定的结果。学习的模型可以用来预测无监督学习哪些衣服种类比较相近在训练集中没有数据标签,没有答案 ..

七月算法机器学习笔记5 -- 特征工程

thystar的专栏

11-12

1917

这套笔记是跟着七月算法四月机器学习班的学习而记录的，主要记一下我再学习机器学习的时候一些概念比较模糊的地方，具体课程参考七月算法官网：http://www.julyedu.com/特征工程特征 => 数据中抽取出来的对结果预测有用的信息特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。数据与特征处理特征处理中不同类型的的特征的处理数值

七月算法深度学习笔记4 -- CNN与常用框架

thystar的专栏

06-04

1万+

这套笔记是跟着七月算法五月深度班的学习而记录的，主要记一下我再学习机器学习的时候一些概念比较模糊的地方，具体课程参考七月算法官网： http://www.julyedu.com/ 神经网络的结构神经网络包含输入层，输出层，及中间的隐层神经网络在做说明事情呢？从逻辑回归到神经元--感知机： X1,X2为输入，z为一个线性的输出，当z0函数趋近1.于是，我的得到

七月算法机器学习 10 聚类算法与应用

moonlightpeng的博客

06-29

393

目录主要内容聚类算法 K-means聚类关于K的选定？ K-means的局限性层次聚类聚类对比高斯混合模型 GMM的优势？ GMM的劣势？总结和对比主要内容聚类算法图像分割 K-means聚类关于K的选定？ K-means的局限性层次聚类自己确定在什么时间停止不同粒度时的聚类情况聚类对比 ...

强化学习笔记（二）---- 策略迭代算法

hold_on_me的专栏

08-15

1万+

强化学习有两种常见迭代训练算法：策略迭代算法和值迭代算法。本文中主要讲述策略迭代算法。先从一个简答的问题开始，下图为一个四方格子，每个位置的状态空间分别为{1, 2, 3, 4}, 其中 3 的位置是个陷阱， 4的位置有个金币。有一个机器人从状态1的位置开始寻找金币。落入陷阱的回报为-1，找到金币的回报为1，在其他位置间移动回报为0，可选的动作空间为{上，下，左，右}，通过这个简单的问题，来...

李宏毅强化学习完整笔记！开源项目《LeeDeepRL-Notes》发布

Datawhale

11-22

1018

↑↑↑关注后"星标"Datawhale每日干货&每月组队学习，不错过Datawhale开源核心贡献者：王琦、杨毅远、江季提起李宏毅老师，熟悉强化学习的读者...

人工智能基础课【学习笔记】 | 机器学习必备的数学基础

Eleven_Whats的博客

06-15

1392

在此前 4 个月的时间当中，我和大家一块分享了最近火热的人工智能的技术，包括它的一些数学基础、机器学习的算法以及神经网络，还有深度学习这样一些热点的话题。俗话说得好，编筐编篓，全在收口。能在最后一次更新的时候和大家做一次这样的视频直播的分享，我觉得也是非常荣幸，能够有机会和大家进行一个更加深入的交流。我们今天分享的内容主要是。从这个主题当中，我也可以感受到，大家在学习人工智能的时候，一个务实的态度。

七月算法机器学习 7 工作流程与模型调优

moonlightpeng的博客

06-27

485

目录特征工程模型选择交叉验证模型参数含义模型效果优化模型状态 o  小笑话两则模型状态验证工具：学习曲线不同模型状态处理线性模型的权重分析 Bad-case分析模型融合 Bagging Adaboost Gradient Boosting Tree 特征工程模型选择选择模型后，在一些超参数，需要选择不同的值线性回归特征的次数可以变化交叉验证模型参数含义模型效果优化模型状态 ...

七月算法强化学习 第六课 学习笔记

大牙的博客

10-28

820

强化学习要点大纲： 1.强化学习的难点？ 1）credit assignment problem 2）the exploration-exploitation dilemma 2.怎么定义强化学习？ 1）马尔科夫决策过程 3.怎么把“眼光”放长远？ 1）discounted future reward 4.怎么预估“未来收益”？ 1）table-based Q-learnin

七月算法机器学习 11 决策树、随机森林、 adaboost

moonlightpeng的博客

07-03

485

主要内容决策树  决策树学习采用的是自顶向下的递归方法，  其基本思想是以信息熵为度量构造一棵熵值下降最快的树，到叶子节点处的熵值为零，  此时每个叶节点中的实例都属于同一类。  有监督学习  建立决策树的关键，即在当前状态下选择哪个属性作为分类依据。根据不同的目标函数，建立决策树主要有一下三种算法。  ID3  C4.5  CART 信息增益三种决策树学习算法决策树的例子 ...

【七月算法】day07 哈希表

ilovejujube的博客

07-07

237

970. 强整数 914. 卡牌分组面试题 17.05. 字母与数字 1497. 检查数组对是否可以被 k 整除

【七月算法】day05 双指针

ilovejujube的博客

07-05

150

392. 判断子序列 541. 反转字符串 II 面试题 16.24. 数对和 696. 计数二进制子串

强化学习极简入门：通俗理解MDP、DP MC TD和Q学习、策略梯度、PPO

热门推荐

结构之法算法之道

02-10

10万+

强化学习里面的概念、公式，相比ML/DL特别多，初学者刚学RL时，很容易被接连不断的概念、公式给绕晕，而且经常忘记概念与公式符号表达的一一对应(包括我自己在1.10日之前对好多满是概念/公式的RL书完全看不下去，如今都看得懂了，故如果读文本之前，你正在被RL各种公式困扰，相信看完这篇RL极简入门后就完全不一样了)。

强化学习七日心得

Cancer_Mo的博客

06-25

570

强化学习七日心得参加了飞桨深度学习学院的”强化学习7日打卡营-世界冠军带你从零实践“课程，接触到了强化学习这个领域。过程中，科科老师带我们学习了强化学习的思想，并使用PARL框架做了若干实践。今天简单的总（结）结（课）一（任）下（务）。课程整体框架课程由浅入深，循序渐进。 1.强化学习（RL）初印象 2.基于表格型方法求解RL 3基于神经网络方法求解RL 4.基于策略梯度求解RL 5.连续动作空间上求解RL。从逻辑上，递进地讲述了针对四个强化学习问题的解决：离散状态空间、连续状态空间、随机性策略、连

R机器学习：分类算法之判别分析LDA,QDA的原理与实现

Codewar的博客

05-01

1897

判别分析的框框很大，今天给大家写写线性判别和二次判别，这两个是判别分析中最常见也是最基本的，希望能够给大家写明白。首先给出判别分析的定义： Linear discriminant analysis (LDA) is a method used in statistics and other fields, to find a linear combination of features that characterizes or separates two or more classes of ob

七月算法机器学习笔记3--凸优化

thystar的专栏

05-21

7566

这套笔记是跟着七月算法四月机器学习班的学习而记录的，主要记一下我再学习机器学习的时候一些概念比较模糊的地方，具体课程参考七月算法官网： http://www.julyedu.com/ 1. 无约束优化问题 1.1 举例首先看一个例子，对于这个方程组，由于b=[0 1 1]' 不在系数组成的列空间内，即因此，这个方程没有解。但是，是否可以找到一个近似解。即

加入学习进度，有表单可以直观的展示出来，加入电子课本，有移动端和pc端

七月算法强化学习 第四课 学习笔记

七月算法强化学习第四课学习笔记