David Silver UCL强化学习课程学习笔记一之Introduction to Reinforcement Learning

将大炮组装

已于 2022-02-16 08:50:04 修改

阅读量803

点赞数

分类专栏：强化学习文章标签：强化学习人工智能 alphago

于 2022-01-30 19:33:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/dzcera/article/details/122746031

版权

强化学习专栏收录该内容

10 篇文章

订阅专栏

Lecture 1: Introduction to Reinforcement
Learning
https://www.davidsilver.uk/teaching/

Admin

Website:
http://www.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html
Contact me: d.silver@cs.ucl.ac.uk

About Reinforcement Learning

在这里插入图片描述

The Reinforcement Learning Problem

之前的例子：
①强化学习是做出最佳决策的科学。它可以帮助我们制定活的物种所表现出的奖励动机行为。比方说，你想让一个孩子坐下来学习考试。要做到这一点非常困难，但是如果每次完成一章/主题时都给他一块巧克力，他就会明白，如果他继续学习，他会得到更多的巧克力棒。所以他会有一些学习考试的动机。
②孩子代表着Agent代理。奖励制度和考试代表了Environment环境。今天的题目是类似于强化学习的States状态。所以，孩子必须决定哪些话题更重要（即计算每种行为的价值）。这将是我们的工作的 Value-Function价值方程。所以，每次他从一个国家到另一个国家旅行时，他都会得到Reward奖励，他用来在时间内完成主题的方法就是我们的Policy决策。

Rewards

所有的目标都可以用最大化的预期结果来描述积累的奖励。
在这里插入图片描述

Agent and Environment

在这里插入图片描述

History

history包含了一次经历中全部的observation、action和reward。

在这里插入图片描述

三种State

agent state 是 agent 内部状态，用于通过 observation 得到输出的 action。

environment state 是环境的私有状态，用于通过agent 的 action 得到定输出的 reward 和 observation。

information state 包含全部history中的information，是马尔可夫状态。

在这里插入图片描述

Inside An RL Agent（Major Components ）

An RL agent may include one or more of these components:
Policy: agent’s behaviour function
Value function: how good is each state and/or action
Model: agent’s representation of the environment
在这里插入图片描述

Problems within Reinforcement Learning

RL代理人的分类方式

按照有无价值方程和策略分类
在这里插入图片描述
按照有无模型分类

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。