
文献
oni小涛
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Predictive State Temporal Difference Learning 原文翻译预测状态时间差分学习
Predictive State Temporal Difference LearningByron Boots,Geoffrey J. Gordon,2010,nips摘要我们提出了一种新的价值函数逼近方法,它将线性时间差分强化学习与子空间识别相结合。在实际应用中,强化学习(RL)由于状态是高维的或部分可观察的这一事实而变得复杂。因此,RL方法被设计为与状态特征而不是状态本身一起工作...翻译 2019-01-03 15:37:24 · 788 阅读 · 0 评论 -
Robust Differential Game Guidance Laws Design for Uncertain Interceptor-Target Engagement via ADP
原文:https://download.youkuaiyun.com/download/qq_29675093/10969822南京航空航天大学孙景亮的论文,二人零和博弈框架下研究导弹拦截机动目标,使用的方法是自适应动态规划,从理念上跟利用critic网络进行强化学习很接近的,但是由于模型已知,使用残差可以直接根据模型调整critic网络的权值,而控制量也是critic网络权值的函数。本文中的crit...翻译 2019-02-23 10:37:38 · 2133 阅读 · 1 评论 -
Planar Evasive Aircrafts Maneuvers Using Reinforcement Learning
原文下载:https://download.youkuaiyun.com/download/qq_29675093/10950893虽然是2012年的论文,但是无论从理论深度还是实用价值都不足。动作限定很死,左右离散二值。从论文内容上看,也要怀疑作者是否真的实现了仿真学习过程。因为10e8的状态空间如何处理文中并没有提到,式(13)的奖励设计也很可笑,速度小于零的要求毫无必要。我是从孙景亮等: 《基于自适...翻译 2019-02-23 10:29:48 · 721 阅读 · 2 评论 -
A Neighboring Optimal Adaptive Critic for Missile Guidance
文章下载链接 https://download.youkuaiyun.com/download/qq_29675093/10941949摘要 - 我们提出了一种基于适应性评估概念的导弹制导神经网络方法。 该方法源于线性最优制导律的名义解和邻域最优控制律的使用。 在神经网络训练中,没有关于目标机动动力学的假定(假定动力学模型未知)。 我们讨论神经网络控制器训练问题,并将神经网络控制系统结果与从最优控制方程获...翻译 2019-01-28 23:14:59 · 786 阅读 · 0 评论 -
最优停止问题 简单综述 2005年
MONTE CARLO ALGORITHMS FOR OPTIMAL STOPPING AND STATISTICAL LEARNINGDANIEL EGLOFFAnnals of Applied Probability, 2004, 15(2):1396-1432. 只是截取里面的综述部分,算法内容看不懂。。。 摘要: 我们扩展了Longsta-Schwartz算法,用于...翻译 2019-01-09 15:56:19 · 2261 阅读 · 0 评论 -
一种通用的卡尔曼滤波不动点近似和有效的时间差分学习
我想梳理一下强化学习与滤波的关系,找到了这篇文献。读了介绍的部分翻译 2019-01-14 23:41:12 · 837 阅读 · 2 评论 -
马尔可夫过程的最优停止:Hilbert空间理论,近似算法及其在高维金融衍生产品定价中的应用
本文给出了一个马尔科夫最优停止问题的benchmark,并使用核函数近似强化学习求解。第二节定义了马尔科夫最优停止问题;算法在第三节,因为教材里面这种算法已经讲得很系统了,没有细看,这里也省略了。我着重读了第四节,是benchmark的定义和求解。翻译 2019-01-08 20:48:10 · 2004 阅读 · 0 评论 -
最大奖励强化学习:非累积奖励判断标准
Title: Maximum reward reinforcement learning: A non-cumulative reward criterionAuthor: K.H. Quah, Chai Quek Nanyang Technological UniversityJournal: Expert Systems with Applications 31 (2006) 351–3...翻译 2019-01-08 14:44:15 · 4025 阅读 · 0 评论 -
option-critic 架构
时域抽象(Temporal abstraction)是拓展强化学习中学习和规划的关键。 虽然在对时域上扩展的行为进行规划已经有了很好的理解,但是从数据中自主地创建这样的抽象仍然具有挑战性。 我们在选项(option)框架中解决了这个问题[Sutton,Precup&Singh,1999; Precup,2000]。 我们推导得出了option的策略权重定理,并提出了一个新的 option - cr...翻译 2019-01-23 22:12:01 · 2853 阅读 · 0 评论 -
LSPI 小车上山实例
《Reinforcement Learning: State-of-the-Art》 第三章 Least-Squares Methods for Policy Iteration 第五节 举例说明最小二乘法对策略迭代的行为。将离线LSPI和在线乐观LSPI两种方法,应用于car-on-the-hill问题(Moore和Atkeson,1995),这是近似强化学习的经典benchmark。由...原创 2019-01-18 14:12:56 · 1368 阅读 · 0 评论 -
Why Most Decisions Are Easy in Tetris—And Perhaps in Other Sequential Decision Problems, As Well
读到一半觉得此文价值不大,后一半翻译较粗略。本文介绍了通过优势计算去除明显不好的动作选项的方法,这在工程应用上算是实用方法,但是几乎无法获得最好的结果。 题目:为什么大部分决策在俄罗斯方块中都很容易——也许在其他序贯决策问题中也是如此摘要我们检查了俄罗斯方块游戏中遇到的决策问题的顺序,发现大多数问题在下面的情境都很容易:不需要知道在游戏中得分良好的评价函数,就能在可选的操作中做出选...翻译 2019-01-05 17:26:44 · 430 阅读 · 0 评论 -
Event-Triggered H∞ Control for Continuous-Time Nonlinear System via Concurrent Learning
摘要本文利用事件触发法研究了一类连续时间非线性系统的H∞最优控制问题。①首先,H∞最优控制问题被公式化为二人零和(ZS)差分博弈。②然后,利用事件触发的控制策略和时间触发的干扰策略,为ZS博弈导出自适应触发条件。仅当不满足触发条件时才更新事件触发的控制器。因此,减少了设备与控制器之间的通信。③此外,提供最小采样时间的正下界以避免Zeno行为。④为了实现目的,提出了事件触发的并发学习算法...翻译 2019-02-23 14:10:26 · 2996 阅读 · 5 评论