强化学习概览

强化学习作为机器学习的一个分支,通过不断试错学习并优化策略。它与监督学习和非监督学习不同,强调从环境反馈中学习。主要算法包括无模型的Model-free和有模型的Model-based,以及Policy based和Value based策略。强化学习在NLP中改善对话模型,特别是聊天机器人领域,通过深度Q网络(DQN)等技术提高智能体的响应质量和互动性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

什么是强化学习

强化学习是机器学习中的一个分支, 机器通过不断地尝试, 从错误中学习, 最后找到规律, 学会了达到目的的方法. Alpha go就是强化学习的应用实例。

强化学习的设置由两部分组成,一个是智能体(agent),即强化学习算法;另一个是环境,指的是agent执行动作时所处的场景(如游戏本身)。环境首先向智能体发送一个状态,然后智能体基于其知识采取动作来响应该状态。之后,环境发送下一个状态,并把奖励返回给智能体。智能体用环境所返回的奖励来更新其知识,对上一个动作进行评估。这个循环一直持续,直到环境发送终止状态来结束这个事件。

VS其它机器学习方法

下面通过与监督学习和非监督学习对比来更直观的理解强化学习。

监督学习vs强化学习

在监督学习中,已经有了数据和数据对应的正确标签,机器可以学习到数据和标签的对应关系。但强化学习一开始并没有数据和标签,像棋类游戏中,存在数万种组合,不可能为每种可能都创建标签。这就需要设法从自己的经历中学习,并以此获得所需的知识。另外在监督学习和强化学习中,输入和输出之间都存在映射。但是在强化学习中,存在的是对智能体的奖励反馈函数,而监督学习是直接告诉智能体准确答案。

非监督学习vs强化学习

在强化学习中,有一个从输入到输出的映射过程,但是这个过程在无监督学习中是不存在的。在无监督学习中,主要任务是找到一种最基本的模式,而不是映射关系。

主要算法和类别

强化学习是一个大家族, 他包含了很多种算法, 下面我们通过分类的方式来了解他们的区别。

根据有没有环境的动态模拟(即模型学习从当前状态 s0 和动作 a 到下一个状态 s1 的转移概率 )可以分为:

Mode

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值