论文链接:Deep Reinforcement Learning with a Natural Language Action Space
标题:Deep Reinforcement Learning with a Natural Language Action Space
来源:ACL 2016
问题
实验任务:文字游戏,实验目标—-提出一种效果更好的DQN网络结构
(1)本文属于探索深度增强学习在nlp领域的应用,实验任务采用了nlp中较方便建立马尔可夫过程的文字游戏任务。文字游戏任务本质还是游戏,只是将当前游戏的环境和现状用文字描述出来,然后玩家根据阅读后的理解输入相应文字来作为操作方案。例如游戏显示“当前有两条岔路,请问选择左还是右?”,那么玩家则相应输入“左”或者“右”来作为操作。
(2)作者认为传统的DQN网络在解决上述问题时实验结果尚存不足,因而提出一种分开学习state和action向量表示的网络结构,并进行相应实验
主要方法
本文采用的方法本质是深度增强学习,下面简单介绍一下
深度增强学习即增强学习在深度学习上基础的实现,本质是用深度神经网络来拟合增强学习中的Q函数,带来的优势是更强的拟合效果以及引入端到端的解决能力。增强学习的建模过程是基于马尔可夫过程建模,因而训练目标有别于传统机器学习任务,传统任务的训练目标是减小期望输出和目标输出的绝对误差,拟合过程是在单个时间点,而增强学习是寻求一个长