强化学习入门
1. 致谢与作者介绍
有许多人帮助完成了相关项目。感谢 Milan Cvitkovic、Alex Leeds、Navdeep Jaitly、Jon Krohn、Katya Vasilaky 和 Katelyn Gleason 的支持与鼓励。也感谢 OpenAI、PyTorch、Ilya Kostrikov 和 Jamromir Janisch 提供深度强化学习算法不同组件的高质量开源实现。同时感谢 Arthur Juliani 关于环境设计的早期讨论。
还有很多人对早期草稿提供了有见地的反馈,包括 Alexandre Sablayrolles、Anant Gupta 等众多人士。此外,非常感谢 Pearson 制作团队的精心付出,让文本质量有了很大提升。最后,要感谢编辑 Debra Williams Cauley 的耐心、鼓励以及帮助实现了创作。
作者 Laura Graesser 是谷歌从事机器人研究的软件工程师,拥有纽约大学计算机科学硕士学位,专注于机器学习。Wah Loon Keng 是 Machine Zone 的 AI 工程师,将深度强化学习应用于工业问题,有理论物理和计算机科学背景。他们共同开发了两个深度强化学习软件库,并就该主题进行了多次演讲和教程分享。
2. 强化学习概述
2.1 强化学习的概念
强化学习(RL)致力于解决顺序决策问题,许多现实世界的问题,如玩电子游戏、体育活动、驾驶、优化库存、机器人控制等都可以用这种方式来构建。在解决这些问题时,我们有一个目标,比如赢得游戏、安全到达目的地或最小化产品制造成本。我们采取行动,并从世界中获得关于离目标有多近的反馈,如当前分数、到目的地
超级会员免费看
订阅专栏 解锁全文
16万+

被折叠的 条评论
为什么被折叠?



