强化学习之Q-learning算法

最新推荐文章于 2025-10-22 15:53:58 发布

原创最新推荐文章于 2025-10-22 15:53:58 发布 · 6k 阅读

1 ·

CC 4.0 BY-SA版权

强化学习专栏收录该内容

0 篇文章

订阅专栏

本文深入探讨了Q-learning算法，一种重要的强化学习方法。通过对比自动机原理，强调了reward机制在环境互动中的作用，详细解析了Q-table更新原则，并讨论了算法在实现人工智能领域的潜在优势。

Q-learning算法

以前在阿里云上面搭了一个wordpress博客，最近快毕业了，阿里云真的很贵，所以转到优快云上写博客，主要是为了方便以后查询。

Q-learning算法是强化学习的一种算法，强化学习目前主要应用到游戏中，主要是目的是训练一个知道怎么做才能得到高分的model。强化学习的介绍很多，李宏毅在https://www.youtube.com/watch?v=W8XF3ME8G2I上的课程就做了一些介绍，此外。强化学习和深度学习究竟是什么关系？？很多地方所增强学习(就是强化学习，reinforcement learning)是深度学习的一种，其实不能这么说，强化学习可以结合深度学习算法，比如说Google的DQN项目就是使用卷积神经网络学习一个自动打游戏的模型，https://blog.youkuaiyun.com/jiandanjinxin/article/details/54133521文章较好的介绍了深度学习和强化学习的关系。

AlphaGo是强化学习的一个例子，个人感觉，监督学习不能够实现真正的人工智能，需要一些半监督，无监督学习方法才有可能实现真的的人工智能。强化学习感觉和自动机的原理差不多，都是在一些state里面采取一些action，然后不断的进行。只不过自动机没有reward这个东西，在强化学习中，每采取一些action，环境(environment)会给一些reward，然后我们可以用于对modle进行更新。

Q-learning算法的简介可以查看http://baijiahao.baidu.com/s?id=1597978859962737001&wfr=spider&for=pc，主要详细介绍下面几点：

1：Q-table的更新原则

$Q-table更新公式$