强化学习之Q-learning算法

Q-learning算法

    以前在阿里云上面搭了一个wordpress博客,最近快毕业了,阿里云真的很贵,所以转到优快云上写博客,主要是为了方便以后查询。

    Q-learning算法是强化学习的一种算法,强化学习目前主要应用到游戏中,主要是目的是训练一个知道怎么做才能得到高分的model。强化学习的介绍很多,李宏毅在https://www.youtube.com/watch?v=W8XF3ME8G2I上的课程就做了一些介绍,此外。强化学习和深度学习究竟是什么关系??很多地方所增强学习(就是强化学习,reinforcement learning)是深度学习的一种,其实不能这么说,强化学习可以结合深度学习算法,比如说Google的DQN项目就是使用卷积神经网络学习一个自动打游戏的模型,https://blog.youkuaiyun.com/jiandanjinxin/article/details/54133521文章较好的介绍了深度学习和强化学习的关系。

    AlphaGo是强化学习的一个例子,个人感觉,监督学习不能够实现真正的人工智能,需要一些半监督,无监督学习方法才有可能实现真的的人工智能。强化学习感觉和自动机的原理差不多,都是在一些state里面采取一些action,然后不断的进行。只不过自动机没有reward这个东西,在强化学习中,每采取一些action,环境(environment)会给一些reward,然后我们可以用于对modle进行更新。

    Q-learning算法的简介可以查看http://baijiahao.baidu.com/s?id=1597978859962737001&wfr=spider&for=pc,主要详细介绍下面几点:

    1:Q-table的更新原则

    Q-table更新公式

    这里的r是reward,指的是每次进行一步的时候,environment所给的分数,和Q(s,a)是不一样的,http://baijiahao.baidu.com/s?id=1597978859962737001&wfr=spider&for=pc使用一个例子介绍了Q-table的更新过程。

    2:疑虑???

     Q-learning必须要知道所有的state和action,那么训练之后得到的实际上就是一个能够得到高reward的模型。能不能不指定state,那么得到的model才能够对未知的情况进行判断。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值