一、强化学习概述

强化学习是什么?

强化学习是面向智能体的学习,智能体通过与环境进行交互来达到预定目标。

强化学习通过试错和优化来进行学习,智能体通过试错后的奖励或者惩罚来学习。

强化学习和机器学习的关系:

机器学习分为三类:监督学习、非监督学习、强化学习。

       监督学习:有即时标签的学习。

      非监督学习:无标签学习。

      强化学习:有延迟奖励的学习。

【例】:给出一批人脸图片,要求做分类

       监督学习:给定人脸的标签(人名),通过数据学习得出人脸属于哪个数据。

       非监督学习:不需要标签,通过学习,判断出哪些图像属于同一个人。

       强化学习:没有标签,只有奖励信号,奖励包括:

                         即时奖励:如果分错了,告诉你错了。

                         延迟奖励:全部分类完毕,告诉你本次分类的得分。

强化学习的直观特性:

     1)没有监督信号,只有奖励信号(具体变抽象)

     2)奖励信号大都是延迟的,不是即时的。

     3)强化学习是优化问题。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值