
强化学习
文章平均质量分 86
Jtag特工
代码和人工智能老兵
展开
-
强化学习教程(1) - 先了解几个公式
强化学习教程(1) - 先了解几个公式对于学习强化学习的好处,大家已经了解很多了,这里就不多叙述了。开篇有几点想提醒新入门的同学,关于强化学习的难点。首先是要做好啃一些理论和公式的准备,虽然深度强化学习可以做到像调库一样使用成熟算法,但是有扎实的理论基础对于学习前沿论文还是一个必要的选项。第二是对算力的需求要有明确的考虑。比如我们调库可以很容易实现Atari游戏的对战,但是能打败计算机是需要用GPU或其他加速的,想用CPU训练几分钟就能通关还是不现实的。第三是对于强化学习和深度学习编程框架需要有原创 2021-08-21 03:36:52 · 932 阅读 · 0 评论 -
强化学习快餐教程(1) - gym环境搭建
强化学习快餐教程(1) - gym环境搭建欲练强化学习神功,首先得找一个可以操练的场地。两大巨头OpenAI和Google DeepMind都不约而同的以游戏做为平台,比如OpenAI的长处是DOTA2,而DeepMind是AlphaGo下围棋。下面我们就从OpenAI为我们提供的gym为入口,开始强化学习之旅。OpenAI gym平台安装安装方法很简单,gym是python的一个包,通...原创 2019-10-02 02:33:25 · 1210 阅读 · 0 评论 -
强化学习快餐教程(2) - atari游戏
强化学习快餐教程(2) - atari游戏不知道看了上节的内容,大家有没有找到让杆不倒的好算法。现在我们晋阶一下,向世界上第一种大规模的游戏机atari前进。太空入侵者可以通过pip install atari_py来安装atari游戏。下面我们以SpaceInvaders-v0为例看下Atari游戏的环境的特点。图形版在太空入侵者中,支持的输入有6种,一个是什么也不做,一个是...原创 2019-10-02 23:28:46 · 2185 阅读 · 0 评论 -
强化学习快餐教程(3) - 一条命令搞定atari游戏
强化学习快餐教程(3) - 一条命令搞定atari游戏通过上节的例子,我们试验出来,就算是像cartpole这样让一个杆子不倒这样的小模型,都不是特别容易搞定的。那么像太空入侵者这么复杂的问题,建模都建不出来,算法该怎么写?别急,我们从强化学习的基础来讲起,学习马尔可夫决策过程,了解贝尔曼方程、最优值函数、最优策略及其求解。然后学习动态规划法、蒙特卡洛法、时间差分法、值函数近似法、策略梯度法...原创 2019-10-04 01:49:49 · 1476 阅读 · 0 评论