《Reinforcement Learning: An Introduction》强化学习导论原文翻译 17.6 人工智能的未来

强化学习已成为推动人工智能进步的关键技术,特别是在深度强化学习领域。它不仅促进了算法在围棋等领域的超人类表现,而且有望在心理学、神经科学、决策辅助等多个领域产生深远影响。然而,随着强化学习在现实世界中的应用,确保其安全性与道德性变得至关重要,尤其是考虑到优化过程中的意外后果及目标函数设计的复杂性。

当我们在20世纪90年代中期撰写本书的第一版时,人工智能正在取得重大进展并对社会产生影响,尽管人工智能仍然承诺会带来鼓舞人心的发展。机器学习是这种展望的一部分,但它尚未成为人工智能不可或缺的一部分。到目前为止,这一承诺已经转变为改变数百万人生活的应用程序,机器学习已经成为一项关键技术。在我们写第二版时,人工智能中一些最显著的发展涉及强化学习,最明显的是“深度强化学习”——通过深度人工神经网络进行函数逼近的强化学习。我们正处于人工智能的现实世界应用浪潮的开端,其中许多将包括强化学习,深度的和其他方式的,将以难以预测的方式影响我们的生活。

但是,大量成功的实际应用并不意味着真正的人工智能已经到来。尽管在许多领域取得了很大进展,但人工智能与人类智能,甚至其他动物之间的差距仍然很大。超越人类的表现可以在某些领域实现,甚至可以在像围棋这样的强大领域实现,但是对于像我们这样的系统来说仍然是一个重大的挑战,因为他们是完整的,具有一般适应能力和解决问题能力,情感复杂性,创造力和能够从经验中快速学习的交互式 agent。通过与动态环境互动来学习,强化学习在未来发展,将成为具备这些能力的 agent 的关键组成部分。

强化学习与心理学和神经科学的联系(第14章和第15章)强调了它与另一个长期的人工智能目标的相关性:揭示关于心灵的基本问题以及它如何从大脑中出现。强化学习理论已经有助于我们理解大脑的奖励,动机和决策过程,并且有充分的理由相信,通过与计算精神病学的联系,强化学习理论将有助于治疗精神障碍的方法,包括吸毒和成瘾。

强化学习对未来的另一个贡献是作为人类决策的辅助。通过模拟环境中的强化学习得出的策略可以为教育,医疗保健,交通,能源和公共部门资源分配等领域的人类决策者提供建议。特别相关的是强化学习的关键特征,它将决策的长期影响考虑在内。在步步高和围棋这样的游戏中,这一点非常明显,其中一些最令人印象深刻的强化学习结果已被证明,但它也是许多高风险决策的属性,它们影响着我们的生活和地球。强化学习遵循由许多学科的决策分析师过去开发的人类决策建议的相关方法。利用先进的函数逼近方法和巨大的计算能力,强化学习方法有可能克服将传统决策支持方法扩展到更大和更复杂问题的一些困难。

人工智能的快速发展导致警告人工智能对我们的社会,甚至对人类本身构成严重威胁。着名的科学家和人工智能先驱赫伯特·西蒙在2000年的CMU地球研讨会上的演讲中预测了我们今天听到的警告(Simon,2000)。他谈到任何新知识的承诺和危险之间的永恒冲突,提醒我们希腊神话中的普罗米修斯,现代科学的英雄,为了人类的利益向众神偷火,以及潘多拉,他的盒子可能是通过一个小而无辜的行动打开,释放世界上无尽的危险。虽然接受这种冲突是不可避免的,但西蒙敦促我们认识到,作为我们未来的设计者而不仅仅是观众,我们做出的决定可能会使普罗米修斯的规模受到影响。这对于强化学习肯定是正确的,强化学习可以使社会受益,但如果不慎地部署,也会产生不良后果。因此,涉及强化学习的人工智能应用的安全性是一个值得认真关注的话题。

强化学习 agent 可以通过与现实世界或现实世界的某些部分的模拟进行交互,或通过这两种经验来源的混合来学习。模拟器提供安全的环境,agent 可以在其中探索和学习,而不会对自身或环境造成实际损害。在大多数当前应用中,策略是从模拟经验中学习而不是与现实世界直接交互。除了避免不良的现实后果之外,从模拟体验中学习可以使几乎无限的数据可用于学习,通常成本低于获得真实体验所需的成本,并且因为模拟通常比实时运行得快得多,所以学习经常会发生更多比依靠真实经验快。

然而,强化学习的全部潜力要求强化学习 agent 嵌入到现实世界经验的流动中,在这些经验中,他们在我们的世界中行动,探索和学习,而不仅仅是在他们的世界中。毕竟,强化学习算法 - 至少是我们在本书中关注的那些 - 被设计为在线学习,并且它们模仿了动物如何在非平稳和恶劣环境中生存的许多方面。在现实世界中嵌入强化学习 agent 可以实现人工智能的承诺,以扩大和扩展人类的能力。

想要强化学习 agent 在现实世界中行动和学习的一个主要原因是,通过足够的保真度模拟真实世界的经验来制定最终的政策,无论是通过强化学习还是通过其他方法,在指导实际行动时运作良好且安全。对于动态依赖于人类行为的环境尤其如此,例如在教育,医疗保健,交通和公共政策方面,这些领域肯定可以从改进的决策制定中受益。但是,对于真实世界的嵌入式agent,需要注意警告人工智能的潜在危险。

其中一些警告与强化学习特别相关。因为强化学习是基于优化的,所以它继承了所有优化方法的优点和缺点。在负面因素是在强化学习的情况下设计目标函数或奖励信号的问题,以便优化产生期望的结果,同时避免不期望的结果。我们在第17.4节中说过,强化学习 agent 可以发现意想不到的方法来使他们的环境获得奖励,其中一些可能是不受欢迎的,甚至是危险的。当我们指定我们想要系统间接学习的内容时,正如我们在设计强化学习系统的奖励信号时所做的那样,我们将不知道 agent 在学习完成之前将如何紧密地实现我们的愿望。这不是强化学习的新问题;对它的认识在文学和工程学方面都有很长的历史。例如,在歌德的诗歌“巫师的学徒”(Goethe,1878)中,学徒使用魔法来附魔扫帚来完成他取水的工作,但结果却是由于学徒对魔法知识不足造成的意外洪水。在工程方面,控制论的创始人诺伯特·维纳(Norbert Wiener)在半个多世纪前通过关联“猴子的爪子”(Wiener,1964)的超自然故事来警告这个问题:“......它给你要求的东西,而不是你应该要求的或者你想要的东西“(第59页)。 Nick Bostrom(2014)也在现代语境中详细讨论了这个问题。任何有强化学习经验的人都可能会发现他们的系统发现意想不到的方式来获得大量奖励。有时意外的行为是好的:它以一种不错的新方式解决问题。在其他情况下,agent 学习的内容违反了系统设计者可能从未想过的考虑因素。如果 agent 要在现实世界中行动而人类没有​​机会或手段审查其行为以轻易中断其行为,则必须仔细设计奖励信号。

尽管可能出现意想不到的负面后果,但工程师,建筑师和其他设计已经对世界产生积极影响的人已经使用了数百年的优化。我们在环境方面对优化方法的应用很有帮助。已经开发了许多方法来降低优化的风险,例如添加硬约束和软约束,将优化限制为稳健且风险敏感的策略,以及使用多个目标函数进行优化。其中一些方法已经适应强化学习,需要更多的研究来解决这些问题。确保强化学习 agent 的目标与我们的目标相适应的问题仍然是一个挑战。

如果强化学习 agent 要在现实世界中行动和学习,另一个挑战不仅仅是他们最终可能学到什么,而是关于他们在学习时的行为方式。如何确保 agent 获得足够的经验来学习高绩效策略,同时不损害其环境,其他agent或自身(或更现实地,同时保持可接受的低伤害概率)?这个问题对于强化学习也不是新颖的或独特的。嵌入式强化学习的风险管理和缓解类似于控制工程师在控制器的行为可能具有不可接受的,可能是灾难性的后果的情况下从使用自动控制开始时必须面对的问题,如在飞机控制或精细控制中化学过程。控制应用依赖于仔细的系统建模,模型验证和广泛的测试,并且有一个高度发展的理论体系,旨在确保自适应控制器的收敛性和稳定性,设计用于待控制系统的动态不完全清楚时使用。理论上的保证从来都不是铁板,因为它们取决于数学基础假设的有效性,但如果没有这个理论,结合风险管理和减缓实践,自动控制 - 适应性和其他 - 就不会像现在这样有益。提高我们所依赖的流程的质量,效率和成本效益。未来强化学习研究最紧迫的领域之一是调整和扩展控制工程中开发的方法,目的是使强化学习 agent 完全嵌入物理环境的可接受性安全。

最后,我们回到西蒙的号召,让我们认识到我们是未来的设计师而不仅仅是观众。通过我们作为个人做出的决策,以及我们可以对我们社会的治理方式施加的影响,我们可以努力确保新技术带来的好处超过其可能造成的危害。在强化学习的情况下,有充分的机会这样做,这有助于提高我们星球上生活的质量,公平性和可持续性,但也可以释放新的危险。这里已经存在的威胁是人工智能应用导致的就业岗位流失。仍然有充分的理由相信人工智能的好处可以超过它造成的破坏。至于安全性,强化学习可能带来的危险与那些已成功管理优化和控制方法相关应用的危险并不完全不同。随着强化学习在未来的应用中进入现实世界,开发人员有义务遵循为类似技术发展的最佳实践,同时扩展它们以确保普罗米修斯保持优势。

The authoritative textbook for reinforcement learning by Richard Sutton and Andrew Barto. Contents Preface Series Forward Summary of Notation I. The Problem 1. Introduction 1.1 Reinforcement Learning 1.2 Examples 1.3 Elements of Reinforcement Learning 1.4 An Extended Example: Tic-Tac-Toe 1.5 Summary 1.6 History of Reinforcement Learning 1.7 Bibliographical Remarks 2. Evaluative Feedback 2.1 An -Armed Bandit Problem 2.2 Action-Value Methods 2.3 Softmax Action Selection 2.4 Evaluation Versus Instruction 2.5 Incremental Implementation 2.6 Tracking a Nonstationary Problem 2.7 Optimistic Initial Values 2.8 Reinforcement Comparison 2.9 Pursuit Methods 2.10 Associative Search 2.11 Conclusions 2.12 Bibliographical and Historical Remarks 3. The Reinforcement Learning Problem 3.1 The Agent-Environment Interface 3.2 Goals and Rewards 3.3 Returns 3.4 Unified Notation for Episodic and Continuing Tasks 3.5 The Markov Property 3.6 Markov Decision Processes 3.7 Value Functions 3.8 Optimal Value Functions 3.9 Optimality and Approximation 3.10 Summary 3.11 Bibliographical and Historical Remarks II. Elementary Solution Methods 4. Dynamic Programming 4.1 Policy Evaluation 4.2 Policy Improvement 4.3 Policy Iteration 4.4 Value Iteration 4.5 Asynchronous Dynamic Programming 4.6 Generalized Policy Iteration 4.7 Efficiency of Dynamic Programming 4.8 Summary 4.9 Bibliographical and Historical Remarks 5. Monte Carlo Methods 5.1 Monte Carlo Policy Evaluation 5.2 Monte Carlo Estimation of Action Values 5.3 Monte Carlo Control 5.4 On-Policy Monte Carlo Control 5.5 Evaluating One Policy While Following Another 5.6 Off-Policy Monte Carlo Control 5.7 Incremental Implementation 5.8 Summary 5.9 Bibliographical and Historical Remarks 6. Temporal-Difference Learning 6.1 TD Prediction 6.2 Advantages of TD Prediction Methods 6.3 Optimality of TD(0) 6.4 Sarsa: On-Policy TD Control 6.5 Q-Learning: Off-Policy TD Control 6.6 Actor-Critic Methods 6.7 R-Learning for Undiscounted Continuing Tasks 6.8 Games, Afterstates, and Other Special Cases 6.9 Summary 6.10 Bibliographical and Historical Remarks III. A Unified View 7. Eligibility Traces 7.1 -Step TD Prediction 7.2 The Forward View of TD( ) 7.3 The Backward View of TD( ) 7.4 Equivalence of Forward and Backward Views 7.5 Sarsa( ) 7.6 Q( ) 7.7 Eligibility Traces for Actor-Critic Methods 7.8 Replacing Traces 7.9 Implementation Issues 7.10 Variable 7.11 Conclusions 7.12 Bibliographical and Historical Remarks 8. Generalization and Function Approximation 8.1 Value Prediction with Function Approximation 8.2 Gradient-Descent Methods 8.3 Linear Methods 8.3.1 Coarse Coding 8.3.2 Tile Coding 8.3.3 Radial Basis Functions 8.3.4 Kanerva Coding 8.4 Control with Function Approximation 8.5 Off-Policy Bootstrapping 8.6 Should We Bootstrap? 8.7 Summary 8.8 Bibliographical and Historical Remarks 9. Planning and Learning 9.1 Models and Planning 9.2 Integrating Planning, Acting, and Learning 9.3 When the Model Is Wrong 9.4 Prioritized Sweeping 9.5 Full vs. Sample Backups 9.6 Trajectory Sampling 9.7 Heuristic Search 9.8 Summary 9.9 Bibliographical and Historical Remarks 10. Dimensions of Reinforcement Learning 10.1 The Unified View 10.2 Other Frontier Dimensions 11. Case Studies 11.1 TD-Gammon 11.2 Samuel's Checkers Player 11.3 The Acrobot 11.4 Elevator Dispatching 11.5 Dynamic Channel Allocation 11.6 Job-Shop Scheduling Bibliography Index
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值