2、强化学习入门

强化学习入门

1. 强化学习概述

强化学习(RL)主要用于解决顺序决策问题。现实世界中的许多问题,如玩电子游戏、进行体育活动、驾驶、优化库存和机器人控制等,都可以用这种方式来构建模型。在解决这些问题时,我们有一个目标,比如赢得游戏、安全到达目的地或最小化产品制造成本。我们采取行动,并从环境中获得关于离目标有多近的反馈,如当前得分、到目的地的距离或单位价格。实现目标通常需要按顺序采取多个行动,每个行动都会改变我们周围的环境。我们观察这些环境变化以及收到的反馈,然后决定下一步采取什么行动。

举个例子,假设你在一个聚会上,朋友拿出一根旗杆,挑战你尽可能长时间地用手平衡它。如果你从未拿过旗杆,最初的尝试可能不会成功。你可能会通过反复尝试来感受旗杆,了解它的重心位置、倾斜速度、需要多快调整以及在什么角度会倒下等信息。你利用这些信息在后续尝试中进行修正和改进,逐渐能够平衡更长时间。

在强化学习中,你被称为“智能体”,旗杆和周围环境被称为“环境”。第一个用强化学习解决的环境是一个名为CartPole的简单场景。智能体控制一个沿轴滑动的小车,以使杆子在给定时间内保持直立。

强化学习研究这类问题以及人工智能体学习解决这些问题的方法。它是人工智能的一个子领域,可追溯到最优控制理论和马尔可夫决策过程(MDP)。20世纪50年代,Richard Bellman在动态规划和拟线性方程的背景下首次对其进行了研究。

强化学习问题可以表示为一个由智能体和环境组成的系统。环境产生描述系统状态的信息,即状态。智能体通过观察状态并使用这些信息选择行动来与环境交互。环境接受行动并过渡到下一个状态,然后返回下一个状态和奖励给智能体。当(状态→行动→奖励)的循环完成时,我们说一个时间

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值