NOTE:Deep Reinforcement Learning with a Natural Language Action Space

最新推荐文章于 2025-04-10 12:20:51 发布

松子茶

最新推荐文章于 2025-04-10 12:20:51 发布

阅读量1.8k

点赞数 1

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/songzitea/article/details/53390997

机器学习与视觉专栏收录该内容

162 篇文章 ¥9.90 ¥99.00

订阅专栏

本文探讨了深度强化学习（DRL）在自然语言处理中的应用，特别是在文字游戏任务中的实验。研究中，作者提出了一种改进的DQN网络结构，通过分开学习状态和动作的向量表示，解决了大词表问题，提高了模型效果。实验结果显示，这种方法在与Max-action DQN和Per-action DQN的比较中表现优越。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文链接：Deep Reinforcement Learning with a Natural Language Action Space

标题：Deep Reinforcement Learning with a Natural Language Action Space

来源：ACL 2016

问题

实验任务:文字游戏，实验目标—-提出一种效果更好的DQN网络结构
（1）本文属于探索深度增强学习在nlp领域的应用，实验任务采用了nlp中较方便建立马尔可夫过程的文字游戏任务。文字游戏任务本质还是游戏，只是将当前游戏的环境和现状用文字描述出来，然后玩家根据阅读后的理解输入相应文字来作为操作方案。例如游戏显示“当前有两条岔路，请问选择左还是右？”，那么玩家则相应输入“左”或者“右”来作为操作。
（2）作者认为传统的DQN网络在解决上述问题时实验结果尚存不足，因而提出一种分开学习state和action向量表示的网络结构，并进行相应实验

主要方法

本文采用的方法本质是深度增强学习，下面简单介绍一下

深度增强学习即增强学习在深度学习上基础的实现，本质是用深度神经网络来拟合增强学习中的Q函数，带来的优势是更强的拟合效果以及引入端到端的解决能力。增强学习的建模过程是基于马尔可夫过程建模，因而训练目标有别于传统机器学习任务，传统任务的训练目标是减小期望输出和目标输出的绝对误差，拟合过程是在单个时间点，而增强学习是寻求一个长

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。