强化学习第二版（翻译）第一章导论第六节小结 1.6 Summary

最新推荐文章于 2019-03-22 09:58:19 发布

翻译最新推荐文章于 2019-03-22 09:58:19 发布 · 726 阅读

·

1

·

文章标签：

#机器学习 #强化学习

强化学习第二版专栏收录该内容

10 篇文章

订阅专栏

强化学习是一种计算方法，强调代理与环境的直接交互学习。它使用马尔可夫决策过程来定义交互作用，并通过价值函数指导策略搜索。本文介绍了强化学习的基本概念，包括状态、动作和收益等。

强化学习是一种理解和自动进行目标导向学习和决策的计算方法。它与其他计算方法不同之处在于它强调了代理与环境的直接交互学习，而不依赖于监督或完整的环境模型。在我们看来，强化学习是第一个认真处理在学习与环境的互动时产生的计算问题，以实现长期目标的第一个领域。

强化学习使用马尔可夫决策过程的正式框架来定义学习代理与其环境之间的交互作用，包括状态、动作和收益。这个框架用简单的方法来表示人工智能问题的基本特征。这些特征包括因果性、不确定性和不确定性，以及目标的存在性。

价值和价值函数的概念是我们在本书中所考虑的大多数强化学习方法的主要特征。我们认为，在政策空间中，价值函数对于有效搜索是非常重要的。价值函数的使用区分了强化学习方法和在整个策略的标量评估指导下搜索策略空间的进化方法。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。