自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 强化学习相关论文阅读笔记之稀疏奖励解决方法

注:该系列文章为强化学习相关论文的阅读笔记,欢迎指正!论文介绍 该论文是中国联通网络技术研究院杨惟轶、哈尔滨工业大学计算机科学与技术学院白辰甲等,于2019年发表在《计算机科学》期刊上的论文。 该论文针对深度强化学习在解决任务中面临的核心问题 — 奖励稀疏问题,进行了解决方法的研究综述,包括奖励设计与学习、经验回放机制、探索与利用、多目标学习和辅助任务等。文章目录​​​​​​​总结...

2021-11-17 15:15:52 3511

原创 使用tensorflow进行简单的强化学习 1—Q-learning

注:该系列文章为学习笔记,欢迎指正!文章目录前言一、Q-learning1.FrozenLake 环境二、使用步骤1.引入库2.读入数据总结 前言大家听说的可以玩 Atari 游戏的 Deep Q-Networks 是Q-Learning 算法的更大、更复杂的实现。所以在学习DQN之前,我们需要对Q-learning有一定的了解。 一、Q-learning概述:Q-learning为一种针对表格环境的表格方法。与试图学习如何通过函数定义将观..

2021-11-12 16:17:43 3544

原创 强化学习篇之马尔科夫决策过程

《强化学习篇之马尔科夫决策过程》文章目录《强化学习篇之马尔科夫决策过程》前言一、马尔科夫决策过程(MDPs)是什么?1.马尔科夫的由来2.MDPs基本内容:3.MDPs:二、马尔科夫决策过程(MDPs)数学表示前言强化学习是机器学习的领域之一,其重点是给定的主体在一个环境中,为了获得更大的回报,可能采取的行动。而马尔科夫决策过程是强化学习的基础,其为我们提供了一种形式化的方法——顺序决策。提示:本系列文章为学习强化学习过程中的笔记梳理,欢迎指正!一、马尔科夫决策过程(MDPs)是什么?

2021-10-23 22:25:17 570

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除