
强化学习
文章平均质量分 92
村头陶员外
B站,小红书,抖音等平台搜索 “Forrest的数据科学站”
展开
-
论文分享 -->强化学习-->Playing Atari with Deep Reinforcement Learning
本次要总结分享的是DeepMind出品的强化学习经典DQN原始论文,论文链接DQN Paper,DeepMind使用该DQN方法,在某些电玩游戏上,机器表现超越人类。动机和创新点本篇论文所提方法是第一个将深度网络和强化学习结合起来进行训练的方法,具体而言,将深度网络(卷积网络)提取高维特征,使用Q-learning的学习方式来训练整个网络。对于一些高维复杂场景,状态特征很难通过人工特征工程的方式提取,这对传统的一些强化学习算法带来挑战,而近些年流行的深度学习,能很好的从高维特征提取到高级特征,并且在原创 2021-08-08 19:59:59 · 1515 阅读 · 0 评论 -
读书笔记 -- >强化学习 -- > The Bellman Equation
本文将总结 强化学习中的一个重要基础知识,Bellman Equation。文章目录value based 方法The V-function: the value of the stateThe Q-function: The value of the actionThe Bellman EquationBellman equation for the State-value functionBellman equation for the Action-value function参考资料value原创 2021-07-26 00:45:55 · 1298 阅读 · 1 评论 -
读书笔记-->强化学习-->强化学习一些基本概念介绍
因为工作中涉及到强化学习知识,故开始利用闲暇时间学习,主要参考的书籍是 Richard S.Sutton 和 Andrew G.Barto 编写的 Reinforcement Learning (第二版)。本章主要总结 书籍的第一章:Chapter 1 Introduction强化学习 是做什么强化学习 就是 学习,如何将环境状态(situations)映射到动作(action),并且期望执行该动作能获得奖励(reward)越大越好。强化学习不是用来告诉哪个action应该被执行,而是学习和发现哪个原创 2021-07-04 14:29:13 · 612 阅读 · 1 评论 -
强化学习-->Deep Reinforcement Learning
因为逐渐有人将强化学习应用到NLPNLP 的任务上,有必要了解一些强化学习基础知识,本篇博文总结自台大教授李宏毅关于深度学习的公开课内容。我们可以以上图来理解强化学习过程,我们机器人agentagent 通过observationobservation 了解到环境的 StateState,采取一些ActionAction ,并且改变当前的环境,然后环境会反馈正向或负向的rewardreward 给a原创 2018-05-08 23:46:16 · 721 阅读 · 0 评论 -
论文分享-- >Adversarial Learning for Neural Dialogue Generation
本次要分享的论文是Adversarial Learning for Neural Dialogue GenerationAdversarial Learning for Neural Dialogue GenerationAdversarial\ Learning\ for\ Neural\ Dia...原创 2018-05-17 14:52:32 · 1645 阅读 · 1 评论 -
Adversarial Learning for Neural Dialogue Generation 代码分析
作为一名NLPlayerNLPlayerNLPlayer 初学者,或者是一名道行不是很深的NLPlayerNLPlayerNLPlayer ,很有必要细细的评读相关优秀的论文,但是如果只是读论文,而不去探索实际的代码的实现,可能无法提高代码能力,也比较难的深刻理解论文中的一些细节,所以在读完论文后,详细的分析其开源代码,了解整个的实现过程非常有必要。那么代码需要分析到什么程度呢?我的实习经历告...原创 2018-05-18 16:33:42 · 2565 阅读 · 6 评论 -
RL for Sentence Generation
本篇博文主要总结下台大教授李宏毅深度学习课程中关于seqGANseqGANseqGAN 的相关内容,并且添加了自己的一些思考。Policy Gradient众所周知,强化学习的目标就是Maximizing Expected RewardMaximizing Expected RewardMaximizing\ Expected\ Reward,在se...原创 2018-05-22 17:27:38 · 551 阅读 · 0 评论