深度强化学习

本文深入介绍了深度强化学习,包括机器学习的三种类型:监督学习、无监督学习和强化学习。接着详细讲解了深度学习的组成部分、模型和优化方法,如梯度下降法。然后阐述了强化学习的框架,特别是马尔科夫决策过程(MDP),以及动态规划、蒙特卡洛学习和时间差分学习的算法。最后,文章探讨了Q Learning、Sarsa和DQN,重点讨论了DQN如何结合神经网络解决传统Q Learning中表格存储问题,以及DQN的训练方法,包括经验回放缓冲区和固定Q目标的使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

深度强化学习

1.机器学习

要提深度强化学习,首先就要提机器学习,机器学习主要分为三类,监督学习,无监督的学习和强化学习。
在这里插入图片描述

监督学习
在这里插入图片描述
如果在学习过程中,我们不断向计算机提供数据和这些数据所对应的值,比如说给计算机看猫和狗的照片,告诉计算机哪些图片里的是猫,哪些是狗,然后让它去学习去分辨猫和狗,通过这些指引的方式,让计算机学习我们是如何把这些图片数据对应上图片所代表的物品,也就是让计算机学习这些标签可以代表哪些图片,这种学习方式叫做监督学习。预测房屋的价格,股票的涨停同样可以用监督学习来实现,我们所熟知的神经网络同样是一种监督学习的方式。

无监督的学习
在这里插入图片描述
如果同样在这种学习过程中,我们只给计算机提供猫和狗的图片,但是并没有告诉它哪些是猫,哪些是狗,取而代之的是让它自己去判断和分类,让它自己总结出这两种类型的图片的不同之处,这就是一种非监督学习。在这一种学习中,我们可以不用提供数据对应的标签信息,计算机观察各种数据之间的特性,会发现这些特性背后的规律,这些规律也就是非监督学习所学到的东西。

强化学习
在这里插入图片描述
强化学习就是把计算机丢到一个对于它完全陌生的环境,或者让它完成一项从未接触过的任务, 它自己会去尝试各种手段,最后让自己成功适应这一陌生的环境或者学会完成这件任务的方法途径。比如说我想训练一个机器人去投篮,我只需要个它一个球,并告诉它你投进了我给你记一分,让它自己去尝试各种各样的投篮方法,在开始阶段,它的命中率可能会非常低,不过它会向人类一样,自己总结和学习投篮成功或失败的经验,最终达到很高的命中率。Google开发的AlphaGo也是应用了这一种学习方式。

2.背景

近几年来,深度学习在一系列领域里大放异彩,大幅超越了一些传统的方法,包括物体识别,文字理解,语言识别等等,我们把这类应用归于一类相似的问题,叫做低层次的感知问题,给定图像语音这样低层次的输入,深度学习可以帮助我们得到一个高层次的表达,但这对我们来说是不够的,人类最重要的能力是会思考,换句话来说我们也想让机器基于这些感知信息作出一些复杂的决策,
举个例子来说,为了玩好魂斗罗游戏,机器首先需要理解当前的图像内容,基于当前的游戏内容,它还要学会在游戏中的正确时机发出正确的操作指令,在右边的机器人导航问题中,机器人也必须对于周围的感知作出各种关系高层次决策。
在这里插入图片描述在这里插入图片描述下面首先我会介绍一下深度学习,然后我会介绍RL的框架和一系列方法,最后会介绍深度强化学习对于传统RL的一些拓展。

3.深度学习

深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。
那么一个深度神经网络通常由以下几部分组成,我们会有线性的函数,比如说矩阵乘法;也会有非线性的激活函数,这样可以增强模型的表达能力。为了拟合我们的模型,我们还会有一个损失函数去定义我们模型的输出和真实的标签距离有多远,根据这个信息,我们就能优化我们的模型去渐渐的逼近目标。

梯度下降法
在这里插入图片描述
深度学习当中,需要使用大量的样本进行训练,数据量越大,得到的模型就越不可能出现过拟合的问题。也就是说每个样本都要计算梯度,然后更新网络的参数。对于上百万甚至上亿的数据进行学习是不可能被接受的。因此,随机梯度下降法就是为了解决这个问题

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值