RL综述(一):强化学习综述(Kaelbling、Littman等1996)

本文是1996年Kaelbling等人撰写的强化学习综述,探讨了强化学习的基础模型、探索与利用的权衡策略,以及延迟奖励下的马尔可夫决策过程。文章强调了强化学习中统计和动态规划方法的重要性,同时讨论了有限时域和无限时域模型,以及不同探索策略,如动态规划、贪婪策略和基于置信区间的探索方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

看看上世纪90年代的RL综述论文吧_
Reinforcement Learning:A Survey
作者:Leslie Pack Kaelbling, Michael L. Littman, Andrew W. Moore

摘要

这篇文章从计算机科学的角度对强化学习这一领域进行了研究,并且尽量写的让熟悉机器学习的相关研究者能够较为容易的读懂。我们研究了强化学习这一领域历史上的基础,也广泛总结了当今研究的主流选择。强化学习是关于智能体(agent)通过与动态环境进行不断交互,从而在“尝试-错误”过程中学习正确行为的问题。这篇文章与心理学上的研究有一定的关系,但更值得注意的是,这里的强化与心理学上的强化是很不一样的。这篇文章主要讨论强化学习,包括探索与利用的权衡、通过马尔科夫决策理论(Markove decision theory)建立该领域的基础、通过延迟奖励进行学习、构建经验模型加速学习、标准化与结构化、处理隐藏状态等。文章结尾对几个已经实现了的强化学习系统的的综述以及目前可用的模型进行了评估。

1 引言

强化学习最早可以追溯到早期控制论以及统计、心理学、神经科学、计算机科学等学科的一些研究。在最近的五到十年中,强化学习在机器学习和人工智能研究者中得到了大量的关注,它描绘了一种在不进行具体指导的情况下通过对智能体进行奖励与惩罚而完成任务的编程方式。但是完成这一想法有着巨大的计算困难。

这篇文章从计算机科学的角度对强化学习的研究历史和当前研究状况进行了综述。我们以较大的视角对强化

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值