2、强化学习入门

强化学习入门

1. 致谢与作者介绍

有许多人帮助完成了相关项目。感谢 Milan Cvitkovic、Alex Leeds、Navdeep Jaitly、Jon Krohn、Katya Vasilaky 和 Katelyn Gleason 的支持与鼓励。也感谢 OpenAI、PyTorch、Ilya Kostrikov 和 Jamromir Janisch 提供深度强化学习算法不同组件的高质量开源实现。同时感谢 Arthur Juliani 关于环境设计的早期讨论。

还有很多人对早期草稿提供了有见地的反馈,包括 Alexandre Sablayrolles、Anant Gupta 等众多人士。此外,非常感谢 Pearson 制作团队的精心付出,让文本质量有了很大提升。最后,要感谢编辑 Debra Williams Cauley 的耐心、鼓励以及帮助实现了创作。

作者 Laura Graesser 是谷歌从事机器人研究的软件工程师,拥有纽约大学计算机科学硕士学位,专注于机器学习。Wah Loon Keng 是 Machine Zone 的 AI 工程师,将深度强化学习应用于工业问题,有理论物理和计算机科学背景。他们共同开发了两个深度强化学习软件库,并就该主题进行了多次演讲和教程分享。

2. 强化学习概述

2.1 强化学习的概念

强化学习(RL)致力于解决顺序决策问题,许多现实世界的问题,如玩电子游戏、体育活动、驾驶、优化库存、机器人控制等都可以用这种方式来构建。在解决这些问题时,我们有一个目标,比如赢得游戏、安全到达目的地或最小化产品制造成本。我们采取行动,并从世界中获得关于离目标有多近的反馈,如当前分数、到目的地

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值