本文包括以下内容:
- 概述
- 详介
- 总结
一、概述
强化学习(Reinforcement Learning,RL)是机器学习的三个大类(有监督学习、无监督学习和强化学习)之一,其基本思想是通过最大化智能体(agent)从环境中获得的累计奖赏值,以学习到完成目标的最优策略,因此RL方法更加侧重于学习解决问题的策略[1]。简单地说,强化学习就是环境状态到行为映射的学习技术,他把这种从环境到行为的映射关系当作黑箱,不具体地探索黑箱内部构造,而是通过行为的正确程度,不断地纠正实施行为的策略。因而强化学习适用于高度非线性的复杂系统,而不用解析系统方程。
二、详介
一个强化学习算法包括以上几个内容:智能体、智能体发出的行为、这一行为带来的反馈及奖励值、环境。
本人是做智能驾驶的,以汽车为例,智能体就是智能车的智能芯片中的软件系统,行为就是汽车的节气门开度、制动踏板开度和转向盘转角等,奖励值就是汽车驾驶行为正确与否的衡量,环境就是驾驶环境。
现实工程问题多数都是动态的,强化学习可以不断地根据行为的奖励值进行调整策略。其实,所谓的学习,也就是指系统性调整系统参数以收敛到最优策略的过程。
下面逐一介绍算法中涉及的组成内容:
1、环境
在RL中,环境就是除了智能体之外的全部元素,这也包括系统动态特性,这不同于传统的控制算法。
智能体在环境中遍历行为,根据行为的奖励值,对行为进行评估,从而不断地收敛到最佳策略。当然,如果对RL外加干预,比如避免智能体探索一些明显没有必要的行为,可以一定程度上提高收敛速度。
在实际应