57、深度强化学习在文本与语音处理中的应用

深度强化学习在文本与语音处理中的应用

1. 深度强化学习在文本处理中的应用

1.1 对话系统训练

DQN 智能体已成功应用于训练对话系统,该系统将状态跟踪和对话策略统一起来,并将二者视为强化学习智能体可用的动作。其架构学习一种最优策略,用于生成语言响应或更新当前对话状态。

在这个架构中,使用 LSTM 网络生成对话状态表示,LSTM 的输出作为一组策略网络的输入,这些策略网络以多层感知器网络的形式呈现,代表每个可能的动作。这些网络的输出表示每个动作的动作 - 状态值函数。

由于状态和动作空间的高维度,训练对话系统通常需要大量带标签的对话。为克服对训练数据的需求,提出了一种两阶段深度强化学习方法,采用演员 - 评论家架构。首先,通过分类交叉熵使用少量高质量对话对策略网络进行有监督训练,以启动学习;然后,使用深度优势演员 - 评论家方法训练价值网络。

1.2 文本摘要

文本摘要旨在自动生成输入文本的自然语言摘要,分为提取式和抽象式摘要两类。
- 提取式摘要 :消除多余文本,仅保留最相关的单词,同时保持自然语言形式。
- 抽象式摘要 :对文本中的相关要点进行释义总结。

ROUGE 是文本摘要任务中最常用的标准质量度量。ROUGE - 1 衡量预测摘要与真实参考文本之间共享的单字词;ROUGE - 2 衡量共享的双字词;ROUGE - L 衡量预测与真实文本之间的最长公共子串。不过,ROUGE 提供的关于预测的人类可读性信息较少,而语言模型的困惑度等指标通常可以捕捉到这一点。

DQN 已

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值