提示:此文章为笔者个人的学习记录,内容仅供参考,有任何问题欢迎在评论区指出
文章目录
前言
提示:本篇文章主要是关于李宏毅教授授课视频中的内容进行介绍,小白博主所作工作只是将现有的知识内容结合网路上一些优秀作者的总结以博文的形式加上自己的理解复述一遍。本文主要还是我的学习总结,因为网上的一些知识分布比较零散故作整理叙述。如果有不对的地方,还请帮忙指正。本文不产生任何收益,如有出现禁止转载、侵权的图片,亦或者文字内容请联系我进行修改。
相关参考:
李宏毅2020机器学习深度学习(完整版)国语:链接: link.
高扬,叶振斌:白话强化学习与Pytorch
一、机器如何理解世界
1)Agent:Agent是执行策略的智能主体,或称代理(代替我们执行策略)。可以理解为机器人本身,它也是我们要放到环境中去探索和学习的主体。
2)Environment: 指机器人所处的环境,是机器人需要探索的客观存在的环境。
3)observation: 观测,指 Agent 能够观测(感知)到的 环境信息。
4)action:指由 Agent 发出的行为和动作,也是 Agent 与 Environment 之间发生的动作交互。
5)Reward: 一般翻译为“奖励值”,有时也翻译为“回报值”。我们也可以称之为得分。
在上面这张图中,机器人是我们的agent,地球是我们的环境( Environment ),桌上的水是机器人的观测( observation)。
它(agent)感知到讯息接着采取行动(action),把水打翻(action) 。因他的改变而环境状态发生改变,一摊水洒在地上。
接着环境(地球)给了它一个回馈:你刚刚的动作是不好的(Don‘t do that),所以机器人得到一个负面奖励(reward<0)。
随后,机器人观测到地上有一滩水后( observation ),便采取行动—把地上水擦净(action),再次改变了环境的状态。
接着地球给了个回馈:谢谢!这是一个正面的奖励(reward>0),接着这个奖励反馈机器人也接收到了,于是它明白了:我这个动作是好的。
这里比喻机器的学习过程就是找到一个函数,函数的输入是环境(观测),而机器学习得目标就是要把这个函数(奖励)最大化。
什么是强化学习?
那我们再来看强化学习的目的:研究并解决机器人智能体贯序决策问题。
而所谓的“贯序决策”就是:
强化学习希望机器人或者智能体在一个环境中,随着 “时间的流逝”,不断地自我学习,并最终在这个环境中学到一套最为合理的行为策略。机器人应该尽可能在没有人干预的情况下,不断根据周围的环境变化学会并判断“在什么情况下怎么做才最好”,从而一步一步完成一个完整的任务(即机器人需要有一份自己的行动准则, 又称之为策略)。这样一系列针对不同情形的最合理的行为组合逻辑,才是一个完整的策略,而非一个简单而孤立的行为。
二、强化学习中的一些基本概念
1.马尔科夫链(MDPs)
在聊概念之前让我们再看