深度强化学习在文本与语音处理中的应用
1. 深度强化学习在文本处理中的应用
1.1 对话系统训练
DQN 智能体已成功应用于训练对话系统,该系统将状态跟踪和对话策略统一起来,并将二者视为强化学习智能体可用的动作。其架构学习一种最优策略,用于生成语言响应或更新当前对话状态。
在这个架构中,使用 LSTM 网络生成对话状态表示,LSTM 的输出作为一组策略网络的输入,这些策略网络以多层感知器网络的形式呈现,代表每个可能的动作。这些网络的输出表示每个动作的动作 - 状态值函数。
由于状态和动作空间的高维度,训练对话系统通常需要大量带标签的对话。为克服对训练数据的需求,提出了一种两阶段深度强化学习方法,采用演员 - 评论家架构。首先,通过分类交叉熵使用少量高质量对话对策略网络进行有监督训练,以启动学习;然后,使用深度优势演员 - 评论家方法训练价值网络。
1.2 文本摘要
文本摘要旨在自动生成输入文本的自然语言摘要,分为提取式和抽象式摘要两类。
- 提取式摘要 :消除多余文本,仅保留最相关的单词,同时保持自然语言形式。
- 抽象式摘要 :对文本中的相关要点进行释义总结。
ROUGE 是文本摘要任务中最常用的标准质量度量。ROUGE - 1 衡量预测摘要与真实参考文本之间共享的单字词;ROUGE - 2 衡量共享的双字词;ROUGE - L 衡量预测与真实文本之间的最长公共子串。不过,ROUGE 提供的关于预测的人类可读性信息较少,而语言模型的困惑度等指标通常可以捕捉到这一点。
DQN 已
超级会员免费看
订阅专栏 解锁全文
2030

被折叠的 条评论
为什么被折叠?



