强化学习知多少?

Blue Faith

已于 2022-10-30 12:00:11 修改

阅读量2k

点赞数 2

文章标签：人工智能数据挖掘学习

于 2022-10-29 23:24:12 首次发布

本文链接：https://blog.youkuaiyun.com/ly17809212771/article/details/127591646

版权

强化学习作为机器学习的一种范式，涉及多阶段序贯决策以获取长期回报。与监督学习不同，强化学习强调反复试验和延迟奖励。其关键概念包括Agent、State、Reward和Action。强化学习应用广泛，如游戏、机器人控制等。算法分类基于动作是否连续。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、什么是强化学习？

1、强化学习的定义

强化学习是机器学习的一种。强化学习实质上是一种机器学习范式，适用于多阶段序贯决策以获得较好的长期回报的场景。反复实验(trial and error）和延迟奖励（delayed reward）是强化学习最重要的两个特征。
生活中常见的强化学习过程：
在这里插入图片描述

2、强化学习和监督学习的区别

一般我们在图片分类的实验中，先有一大堆标定的数据，比如车、飞机等图片，然后训练一个分类器，网络在训练时已经把真实的Label给到网络了，如果预测错误，比如把车预测成飞机，就直接说预测是错误的，把错误的写成一个loss函数。所以在监督学习中，输入的数据都是没有关联的，如果有关联，网络就会不好学习。监督学习告诉了learner，正确的标签是什么，使用正确的标签来修正自己的预测。
在这里插入图片描述
图来自于：https://cdn.modb.pro/db/245201

但是在强化学习中，这两点都不满足，强化学习的训练数据就是玩游戏的一个过程，数据就是游戏中的这样一个过程序列，比如游戏走在第三步的时候，将这个learner放入到网络，希望网络在当前的状态下输出一个决策，但是我们并没有标签告诉我们这个决策动作是正确的还是错误的，得等到游戏结束才行。面临一个奖励延迟，训练网络就是比较困难的。
在这里插入图片描述
图来自于莫烦教程