《Reinforcement Learning: An Introduction》强化学习导论英文教材自译中文版Chapter 1

译者注:此为本人自学了Sutton 第二版《Reinforcement Learning: An Introduction》之后,为了夯实记忆和温故知新所做的自译中文版,。为了共享知识,将其发布在优快云上。为了便于阅读和理解,在翻译过程中尽量使译文接近“信、达、雅”,且对某些内容进行了注解。如有谬误与可改进之处,欢迎留下各位的宝贵意见。如需转载或引用,请注明出处。感谢。

————————————————————————————————————————————————

Chapter 1 介绍

当我们思考学习的本质时,第一个来到我们脑海中的想法便是通过与环境互动来学习。当婴儿玩耍、舞动双臂或四处张望时,尽管不存在明确的“导师”,但确是与环境产生了直接的感观联结。通过这种联结不断实践会产生大量的因果信息、行动及其产生的效果信息以及能够用来指导我们如何行动以达成特定目标的信息。在生活中,这种互动无疑是我们了解自身与自身所处环境的主要来源。无论是学习如何驾驶一辆汽车还是与他人保持谈话,我们都敏锐的关注着环境对我们的行为作出了怎样的反应(译者注:例如汽车对我们的操作如何反应或他人对我们所说的话如何反应),并且尝试通过行为来影响未来可能发生的事(译者注:例如踩刹车减速避免汽车驶出道路或说赞美他人的话使之心情愉悦)。从互动中学习是几乎所有学习理论和智能理论的基础理念。
在本书中,我们探索一种从互动中学习知识的计算方法。其并非直接将人或动物如何学习的过程简单地理论化,而是主要探索理想化的学习情景和评估不同学习方法的效果。即,我们是从人工智能研发者和工程师的角度出发的。我们探索在科学或商业领域行之有效的机器设计,并通过数学分析或算例实验来评估这些设计。我们将这一正在探索中的学科称为强化学习,与其他机器学习方法相比,它更加关注基于互动的目标导向学习。

1.1 强化学习

强化学习的目的是去学习怎样行动——怎样建立从特定情境到特定行动的映射——来获取最大的利益。学习者不会被事先告知采取怎样的行动会产生最大的利益,而是必须通过尝试去发现。在多数有趣且富有挑战的案例中,行动可能不仅会影响即时获得的奖励,同时也会影响下一个情景,或通过这样的过程波及到所有后续奖励。试错搜索(trial-and-error search)和延迟奖励(delayed reward)是强化学习最重要的两个特点。
同其他以“ing”结尾的标题如机器学习(machine learning)和登山运动(mountaineering)类似,强化学习既是一个问题,又是一类在某些特定问题上行之有效的解决方法,还是一个研究该问题和其解决方法的特殊领域。尽管为了便利用一个名称来同时代表这三个概念,但从理念上理解它们之间的区别是必要的。特别是问题与其解决方法的区别,不理解它们会在学习中产生很多的困惑。
我们采用动态系统理论(dynamical systems theory)的观点来正式定义强化学习问题,特别地,将其视为一个不完全信息马尔可夫决策过程的最优控制问题。定义的全部细节只有等到第三章才能完全展开,但其基本理论是一个不断学习的智能体通过与环境的持续互动来实现其特定的目标。一个学习中的智能体必须能在一定程度上感知环境的状态,且能采取可以影响环境状态的行动。智能体必须有一个或多个与环境状态相关的目标。马尔可夫决策过程包括三个方面——感知,行动,目标——以它们最简单的可能形式且不忽略其中任何一个。任何适用于解决此类问题的方法都可以被归为强化学习方法。
强化学习与监督学习(supervised learning)不同,其为目前机器学习领域最活跃的分支之一。监督学习是从一个带标签样本组成的训练集中学习知识,该带标签的训练集是由知识丰富的“外部导师”所提供。训练集中每一个样本表示系统可能经历的某一特定情境及在该情境下应当采取的正确行动(标签),通常是描述某一情境应当被划归为哪一个分类(译者注:机器学习领域中经典的分类问题)。监督学习的目的是泛化该系统,使其在面临未出现在训练集中的情境时可以选择正确的行动。这是一种重要的”学习“方法,但无法独自地来通过互动学习知识。此外,在互动问题中,同时获取到具有代表性的情境和其正确行动的样本是不现实的。在某些未知领域,我们期望能通过学习来获取最大利益,因此智能体必须具有从自身经验中学习的能力。
强化学习也与无监督学习(Unsupervised Learning)不同,其研究内容是在无标签数据集合中发现隐藏的数据结构。监督学习和无监督学习这样的用语似乎已经将机器学习的研究范畴分割完毕,但它们并没有。尽管有人可能会认为强化学习是一种无监督学习,因为它不依赖正确的行为样本,但强化学习尝试最大化利益而不是尝试寻找隐藏结构。了解智能体经验数据的结构自然有利于强化学习,但它同样无法单独地解决以最大化利益为目标的强化学习问题。因此,我们认为强化学习是机器学习的第三个范畴,与监督学习、无监督学习或其他可能存在的范畴并列。
仅出现在强化学习中而未见于其他机器学习范畴的一个挑战是在探索与利用之间进行权衡。为了获得高额的利益,强化学习智能体必须偏向某些在过去采用过并被发现可以有效产生利益的行动。但为了发现这些行动,它必须去尝试大量未被选择过的行动。智能体为了获利必须利用某些已经历过的行动,但为了在将来做出更好的行动选择,它必须探索未经历的行动。困境在于单独地进行探索或利用均会导致任务失败,智能体必须大量尝试并逐步偏向那些表现最佳的行动。在随机任务中,每个行动都必须被尝试多次才能获得一个关于其期望值的可靠估计。探索——利用困境已被数学家们集中研究了数十年,但仍未被解决。目前,我们认为完全的探索与利用的平衡问题并未出现在监督学习与无监督学习中,至少在它们最纯粹的形式中没有。
另一个强化学习的关键特征是它明确地考虑一

The authoritative textbook for reinforcement learning by Richard Sutton and Andrew Barto. Contents Preface Series Forward Summary of Notation I. The Problem 1. Introduction 1.1 Reinforcement Learning 1.2 Examples 1.3 Elements of Reinforcement Learning 1.4 An Extended Example: Tic-Tac-Toe 1.5 Summary 1.6 History of Reinforcement Learning 1.7 Bibliographical Remarks 2. Evaluative Feedback 2.1 An -Armed Bandit Problem 2.2 Action-Value Methods 2.3 Softmax Action Selection 2.4 Evaluation Versus Instruction 2.5 Incremental Implementation 2.6 Tracking a Nonstationary Problem 2.7 Optimistic Initial Values 2.8 Reinforcement Comparison 2.9 Pursuit Methods 2.10 Associative Search 2.11 Conclusions 2.12 Bibliographical and Historical Remarks 3. The Reinforcement Learning Problem 3.1 The Agent-Environment Interface 3.2 Goals and Rewards 3.3 Returns 3.4 Unified Notation for Episodic and Continuing Tasks 3.5 The Markov Property 3.6 Markov Decision Processes 3.7 Value Functions 3.8 Optimal Value Functions 3.9 Optimality and Approximation 3.10 Summary 3.11 Bibliographical and Historical Remarks II. Elementary Solution Methods 4. Dynamic Programming 4.1 Policy Evaluation 4.2 Policy Improvement 4.3 Policy Iteration 4.4 Value Iteration 4.5 Asynchronous Dynamic Programming 4.6 Generalized Policy Iteration 4.7 Efficiency of Dynamic Programming 4.8 Summary 4.9 Bibliographical and Historical Remarks 5. Monte Carlo Methods 5.1 Monte Carlo Policy Evaluation 5.2 Monte Carlo Estimation of Action Values 5.3 Monte Carlo Control 5.4 On-Policy Monte Carlo Control 5.5 Evaluating One Policy While Following Another 5.6 Off-Policy Monte Carlo Control 5.7 Incremental Implementation 5.8 Summary 5.9 Bibliographical and Historical Remarks 6. Temporal-Difference Learning 6.1 TD Prediction 6.2 Advantages of TD Prediction Methods 6.3 Optimality of TD(0) 6.4 Sarsa: On-Policy TD Control 6.5 Q-Learning: Off-Policy TD Control 6.6 Actor-Critic Methods 6.7 R-Learning for Undiscounted Continuing Tasks 6.8 Games, Afterstates, and Other Special Cases 6.9 Summary 6.10 Bibliographical and Historical Remarks III. A Unified View 7. Eligibility Traces 7.1 -Step TD Prediction 7.2 The Forward View of TD( ) 7.3 The Backward View of TD( ) 7.4 Equivalence of Forward and Backward Views 7.5 Sarsa( ) 7.6 Q( ) 7.7 Eligibility Traces for Actor-Critic Methods 7.8 Replacing Traces 7.9 Implementation Issues 7.10 Variable 7.11 Conclusions 7.12 Bibliographical and Historical Remarks 8. Generalization and Function Approximation 8.1 Value Prediction with Function Approximation 8.2 Gradient-Descent Methods 8.3 Linear Methods 8.3.1 Coarse Coding 8.3.2 Tile Coding 8.3.3 Radial Basis Functions 8.3.4 Kanerva Coding 8.4 Control with Function Approximation 8.5 Off-Policy Bootstrapping 8.6 Should We Bootstrap? 8.7 Summary 8.8 Bibliographical and Historical Remarks 9. Planning and Learning 9.1 Models and Planning 9.2 Integrating Planning, Acting, and Learning 9.3 When the Model Is Wrong 9.4 Prioritized Sweeping 9.5 Full vs. Sample Backups 9.6 Trajectory Sampling 9.7 Heuristic Search 9.8 Summary 9.9 Bibliographical and Historical Remarks 10. Dimensions of Reinforcement Learning 10.1 The Unified View 10.2 Other Frontier Dimensions 11. Case Studies 11.1 TD-Gammon 11.2 Samuel's Checkers Player 11.3 The Acrobot 11.4 Elevator Dispatching 11.5 Dynamic Channel Allocation 11.6 Job-Shop Scheduling Bibliography Index
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值