
强化学习
大风起兮借天时
这个作者很懒,什么都没留下…
展开
-
强化学习-马尔科夫决策过程
马尔科夫决策过程-MDP由五元组组成,该过程并不是自发的按照某个概率进行转移,而是通过选择某个动作来进行转移 ;组成S,R,A,P,γ(折扣因子)P=S×A×S P(s,a,s')表示状态s下执行动作a到达状态s‘的概率 R=S×A 即时奖励函数...原创 2020-01-19 08:41:34 · 224 阅读 · 0 评论 -
强化学习概念介绍
强化学习本质是智能体(agent)以试错的方式进行学习,通过与环境进行交互获得奖励指导行为,目标是寻找一个最优策略,使智能体获得最大的奖励。(注意,agent的动作的影响不止立即获取得到的奖励,而且还影响接下来的动作和最终的奖励)关键要素envirnment ,reward,action,state,policy(确定策略和随机策略:以一定的概率执行某一动作)具体策略把用来指导个体产生于...原创 2020-01-05 13:06:02 · 503 阅读 · 0 评论