三分钟简易入门“强化学习 (Reinforcement Learning)”

本文包括以下内容:

  • 概述
  • 详介
  • 总结

一、概述

强化学习(Reinforcement Learning,RL)是机器学习的三个大类(有监督学习、无监督学习和强化学习)之一,其基本思想是通过最大化智能体(agent)从环境中获得的累计奖赏值,以学习到完成目标的最优策略,因此RL方法更加侧重于学习解决问题的策略[1]。简单地说,强化学习就是环境状态到行为映射的学习技术,他把这种从环境到行为的映射关系当作黑箱,不具体地探索黑箱内部构造,而是通过行为的正确程度,不断地纠正实施行为的策略。因而强化学习适用于高度非线性的复杂系统,而不用解析系统方程。

二、详介

在这里插入图片描述
一个强化学习算法包括以上几个内容:智能体、智能体发出的行为、这一行为带来的反馈及奖励值、环境。

本人是做智能驾驶的,以汽车为例,智能体就是智能车的智能芯片中的软件系统,行为就是汽车的节气门开度、制动踏板开度和转向盘转角等,奖励值就是汽车驾驶行为正确与否的衡量,环境就是驾驶环境。

现实工程问题多数都是动态的,强化学习可以不断地根据行为的奖励值进行调整策略。其实,所谓的学习,也就是指系统性调整系统参数以收敛到最优策略的过程。

下面逐一介绍算法中涉及的组成内容:

1、环境

在RL中,环境就是除了智能体之外的全部元素,这也包括系统动态特性,这不同于传统的控制算法。

智能体在环境中遍历行为,根据行为的奖励值,对行为进行评估,从而不断地收敛到最佳策略。当然,如果对RL外加干预,比如避免智能体探索一些明显没有必要的行为,可以一定程度上提高收敛速度。

在实际应

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值