- 博客(3)
- 收藏
- 关注
原创 强化学习相关论文阅读笔记之稀疏奖励解决方法
注:该系列文章为强化学习相关论文的阅读笔记,欢迎指正!论文介绍 该论文是中国联通网络技术研究院杨惟轶、哈尔滨工业大学计算机科学与技术学院白辰甲等,于2019年发表在《计算机科学》期刊上的论文。 该论文针对深度强化学习在解决任务中面临的核心问题 — 奖励稀疏问题,进行了解决方法的研究综述,包括奖励设计与学习、经验回放机制、探索与利用、多目标学习和辅助任务等。文章目录总结...
2021-11-17 15:15:52
3511
原创 使用tensorflow进行简单的强化学习 1—Q-learning
注:该系列文章为学习笔记,欢迎指正!文章目录前言一、Q-learning1.FrozenLake 环境二、使用步骤1.引入库2.读入数据总结 前言大家听说的可以玩 Atari 游戏的 Deep Q-Networks 是Q-Learning 算法的更大、更复杂的实现。所以在学习DQN之前,我们需要对Q-learning有一定的了解。 一、Q-learning概述:Q-learning为一种针对表格环境的表格方法。与试图学习如何通过函数定义将观..
2021-11-12 16:17:43
3544
原创 强化学习篇之马尔科夫决策过程
《强化学习篇之马尔科夫决策过程》文章目录《强化学习篇之马尔科夫决策过程》前言一、马尔科夫决策过程(MDPs)是什么?1.马尔科夫的由来2.MDPs基本内容:3.MDPs:二、马尔科夫决策过程(MDPs)数学表示前言强化学习是机器学习的领域之一,其重点是给定的主体在一个环境中,为了获得更大的回报,可能采取的行动。而马尔科夫决策过程是强化学习的基础,其为我们提供了一种形式化的方法——顺序决策。提示:本系列文章为学习强化学习过程中的笔记梳理,欢迎指正!一、马尔科夫决策过程(MDPs)是什么?
2021-10-23 22:25:17
570
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人