每日一佳——Least-Squares Temporal Difference Learning(Justin A. Boyan,ICML,1999)

本文介绍了一种机器学习中的强化学习算法——最小二乘时间差分法(LSTD)。该方法通过消除步长因子的需求并更有效地利用样本提高了学习速度。文中提及LSTD算法最初由Bradtke和Barto提出,后来在Boyan的工作中进行了扩展。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

PDF

这篇Paper获得ICML1999年的Best Paper Award。好吧,看到题目我就傻眼了,讲的是啥?没办法,只能Duang一下了。(^_^)

Least-Squares:最小二乘

Temporal Difference:时间差分

原来题目的意思是《最小二乘时间差分法学习》。它是最小二乘时间差分法的升级版。

那么问题又来了:什么是最小二乘时间差分法?它有什么用?

1.想要了解最小二乘时差法的来龙去脉就要看这篇东西了:An Introduction to Temporal Difference Learning

其中讲到:The LSTD algorithm introduced by [BradtkeBarto96] eliminates the need of adapting a step size factor α . Furthermore, it improves the learning speed compared to TD by utilizing samples more efficiently. The function approximation introduced in Equation 4 limits the value function representation to linear functions, satisfying the limitation for the application of LSTD. In [BradtkeBarto96] the LSTD algorithm is introduced with the limitation of =0. An extended algorithm LSTD() is presented in [Boyan2002].

2.时间差分法可用于运动检测,比如某米的智能摄像机就有运动检测的功能,当有人在画面中移动的时候就可以检测到。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

手撕机

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值