34、强化学习:原理、算法与应用

强化学习:原理、算法与应用

1. 强化学习简介

强化学习(Reinforcement Learning,RL)是一种极具潜力但尚未被充分探索的学习范式。它与监督学习和无监督学习有很大不同。从一无所知的状态开始,强化学习智能体可以通过多次试错,学会实现一个目标,而整个过程中唯一的输入就是来自环境的反馈。OpenAI的研究表明,持续的竞争可能是智能进化的原因。许多深度学习从业者认为,强化学习将在通用人工智能(Artificial General Intelligence,AGI)的宏伟梦想中发挥重要作用。

1.1 强化学习的本质

想象一下,婴儿学走路、鸟儿学飞翔和强化学习智能体学习玩雅达利游戏,它们有什么共同点呢?
- 试错 :婴儿或鸟儿会尝试各种方式,经历多次失败,最终找到成功的方法。强化学习智能体也会玩很多局游戏,有输有赢,最终才能稳定地取得成功。
- 目标 :婴儿的目标是学会走路,鸟儿是学会飞翔,而强化学习智能体则是赢得游戏。
- 与环境交互 :它们唯一的反馈都来自所处的环境。

1.2 与其他学习范式的区别

强化学习也被称为带评判的学习。智能体对应我们的网络(程序),它可以执行一组动作(a),这会导致环境状态(s)发生变化,进而智能体从环境中获得奖励或惩罚。与监督学习不同,智能体没有训练示例,不知道正确的动作是什么;与无监督学习不同,智能体的目标不是在输入中寻找内在结构,而是最大化长期奖励并减少惩罚。

例如,训练狗捡球时,狗就是智能体,它的肌肉运动是动作,地面、人和球构

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值