reinforcement learning & value iteration discussion方面的奠基性文章

本文精选了三篇关于强化学习的重要文献,涵盖了从理论到实践的关键技术。包括并行及分布式计算的方法、通过优先级遍历减少所需数据量及计算时间的技术,以及在Dyna框架下实现高效学习和规划的策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

RL:

http://cdn.preterhuman.net/texts/science_and_technology/artificial_intelligence/Reinforcement%20Learning%20%20An%20Introduction%20-%20Richard%20S.%20Sutton%20,%20Andrew%20G.%20Barto.pdf

Value ineration:

1. Bertsekas, D. P., & Tsitsiklis, J. N. (1989). Parallel and Distributed Computation: Numerical Methods. Prentice Hall. Republished by Athena Scientific in 1997.

2. Moore, A. W., & Atkeson, C. G. (1993). Prioritized sweeping: Reinforcement learning with less data and less time. Machine Learning, 13 (1), 103-130

3. Peng, J., & Williams, R. J. (1993). Efficient learning and planning within the Dyna framework. In Proceedings of the Second International Conference on Simulation of Adaptive Behavior, pp. 281290.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值