
增强学习
拉风小宇
本人目前在做银行做软件开发工程师,有浙江大学应用数学以及阿姆斯特丹自由大学人工智能的双硕士学位。
欢迎各位参与探讨关于后端开发,图形学和人工智能的问题,也感谢各位帮我点赞收藏转发我的博客(*^▽^*) Many Thanks
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
蒙特卡洛树搜索(MonteCarlo Tree Search)
问题描述这个题目来自一个我的作业:Construct a binary tree (each node has two child nodes) of depth d=12d = 12d=12 and assign different values to each of the 2d2^d2d leaf-nodes. Implement the MCTS algorithm and apply...原创 2019-11-09 00:25:08 · 3955 阅读 · 4 评论 -
Q-Learning介绍:一种增强学习
最近在训练机器人,学习了Q-learning算法,看到了几篇比较好的文章,好几篇文章已经有人翻译过了,还有一系列好文章还没有翻译版本,这篇文章是medium上的,出处为An introduction to Q-Learning: reinforcement learning ——ADLQ-learning是一种基于值的监督式学习算法。在此文中,我们将从以下几方面介绍Q-learning算...翻译 2019-01-24 07:30:47 · 1239 阅读 · 0 评论 -
Epsilon-Greedy算法
翻译自 The Epsilon-Greedy Algorithm – James D.McCaffreyepsilon-greedy算法(通常使用实际的希腊字母ϵ\epsilonϵ)非常简单,并且在机器学习的多个领域被使用。epsilon-greedy的一种常见用法是所谓的多臂匪徒问题(multi-armed bandit problem)。假设你站在k = 3台老虎机前面。每台机器都...翻译 2019-10-19 03:49:52 · 31307 阅读 · 14 评论 -
N-step Bootstrapping For Advantage Actor-Critic
The topic we chooseN-step bootstrapping in actor-critic methods.Motivation and research questionIn this project, we study n-step bootstrapping in actor critic methods, more specific, we study advan...原创 2019-10-14 06:27:16 · 846 阅读 · 0 评论