教材学习
oni小涛
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《Reinforcement Learning: An Introduction》强化学习导论原文翻译 17.6 人工智能的未来
当我们在20世纪90年代中期撰写本书的第一版时,人工智能正在取得重大进展并对社会产生影响,尽管人工智能仍然承诺会带来鼓舞人心的发展。机器学习是这种展望的一部分,但它尚未成为人工智能不可或缺的一部分。到目前为止,这一承诺已经转变为改变数百万人生活的应用程序,机器学习已经成为一项关键技术。在我们写第二版时,人工智能中一些最显著的发展涉及强化学习,最明显的是“深度强化学习”——通过深度人工神经网络进行函...翻译 2019-01-03 16:46:42 · 992 阅读 · 0 评论 -
《Reinforcement Learning: An Introduction》强化学习导论原文翻译 17.5 剩下的问题
在本书中,我们提出了人工智能强化学习方法的基础。粗略地说,这种方法基于无模型和基于模型的方法协同工作,如第8章的Dyna架构,结合第II部分中开发的函数逼近。重点放在在线和增量算法上,我们认为这些算法甚至是基于模型的方法的基础,以及如何在异策略训练情境中应用这些算法。后者的全部理由仅在最后一章中提出。也就是说,我们一直将异策略学习作为一种有吸引力的方式来处理探索/利用困境,也就是说,我们一直将离策...翻译 2019-01-03 16:22:36 · 1464 阅读 · 0 评论 -
《Reinforcement Learning: An Introduction》强化学习导论原文翻译17.2 通过选项(option)做时域抽象
这一节介绍了基于option的分层强化学习方法的原理。从本书的思维出发做了透彻分析。翻译 2019-01-03 11:34:13 · 967 阅读 · 0 评论 -
《Reinforcement Learning: An Introduction》强化学习导论原文翻译17.1 广义价值函数和辅助任务
通过广义价值函数引出两种辅助任务强化学习和基于option的强化学习。翻译 2019-01-02 22:30:37 · 557 阅读 · 0 评论 -
《Reinforcement Learning: An Introduction》强化学习导论原文翻译 17.3 观察与状态
在本书中,我们将学习的近似值函数(以及第13章中的策略)写为环境状态的函数。这是第一部分中提出的方法的一个重要限制,其中学习值函数被实现为一个表,这样任何值函数都可以精确地近似;这种情况等于假设环境状态被agent完全观测。但是在许多情形下,包括在所有自然智慧生命中,感官输入仅提供关于世界状态的部分信息。某些物体可能被其他物体遮挡,或在agent后面,或几英里外。在这些情况下,环境状态的潜在重要方...翻译 2018-12-29 09:39:12 · 3832 阅读 · 0 评论 -
《Reinforcement Learning: An Introduction》强化学习导论原文翻译 17.4 设计奖励信号
17.4 设计奖励信号 强化学习优于监督学习的一个主要优点是强化学习不依赖于详细的指导信息:产生奖励信号不依赖于知道Agent的正确行为应该是什么。但强化学习应用程序的成功在很大程度上取决于奖励信号设计应用程序设计者的目标有多好,以及实现该目标的过程中,信号评估的进展有多好。出于这些原因,设计奖励信号是任何强化学习应用的关键部分。 通过设计奖励信号,我们的目的是设计Agent环境的一部分...翻译 2018-12-27 10:30:13 · 1544 阅读 · 0 评论
分享