玉方知-优快云博客

原创强化学习相关论文阅读笔记之稀疏奖励解决方法

注：该系列文章为强化学习相关论文的阅读笔记，欢迎指正！论文介绍该论文是中国联通网络技术研究院杨惟轶、哈尔滨工业大学计算机科学与技术学院白辰甲等，于2019年发表在《计算机科学》期刊上的论文。该论文针对深度强化学习在解决任务中面临的核心问题 — 奖励稀疏问题，进行了解决方法的研究综述，包括奖励设计与学习、经验回放机制、探索与利用、多目标学习和辅助任务等。文章目录总结...

2021-11-17 15:15:52 3511

原创使用tensorflow进行简单的强化学习 1—Q-learning

注：该系列文章为学习笔记，欢迎指正！文章目录前言一、Q-learning1.FrozenLake 环境二、使用步骤1.引入库2.读入数据总结前言大家听说的可以玩 Atari 游戏的 Deep Q-Networks 是Q-Learning 算法的更大、更复杂的实现。所以在学习DQN之前，我们需要对Q-learning有一定的了解。一、Q-learning概述：Q-learning为一种针对表格环境的表格方法。与试图学习如何通过函数定义将观..

2021-11-12 16:17:43 3544

原创强化学习篇之马尔科夫决策过程

《强化学习篇之马尔科夫决策过程》文章目录《强化学习篇之马尔科夫决策过程》前言一、马尔科夫决策过程（MDPs）是什么？1.马尔科夫的由来2.MDPs基本内容：3.MDPs：二、马尔科夫决策过程（MDPs）数学表示前言强化学习是机器学习的领域之一，其重点是给定的主体在一个环境中，为了获得更大的回报，可能采取的行动。而马尔科夫决策过程是强化学习的基础，其为我们提供了一种形式化的方法——顺序决策。提示：本系列文章为学习强化学习过程中的笔记梳理，欢迎指正！一、马尔科夫决策过程（MDPs）是什么？

2021-10-23 22:25:17 570

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 强化学习相关论文阅读笔记之稀疏奖励解决方法

原创 使用tensorflow进行简单的强化学习 1—Q-learning

原创 强化学习篇之马尔科夫决策过程

空空如也

空空如也

原创强化学习相关论文阅读笔记之稀疏奖励解决方法

原创使用tensorflow进行简单的强化学习 1—Q-learning

原创强化学习篇之马尔科夫决策过程