预训练语言模型在对话评估和生成中的应用研究
1. 对话系统评估与预训练语言模型概述
在对话系统的研究中,评估是监测其研究进展的关键环节。虽然人工评估是评估对话系统性能最准确的方式,但所需的费用和精力限制了其在大规模对话评估任务中的应用。因此,自动对话评估(ADE)成为了一种高效的替代方法。理想的 ADE 指标应能高效且有效地评估不同领域的对话系统,但实现这样的指标是一项具有挑战性的任务。
近年来,大规模预训练语言模型(Pr - LM)在自然语言处理(NLP)的众多任务中取得了显著进展,也为解决多领域评估挑战提供了有前景的方向。然而,不同的 Pr - LM 具有不同的预训练方案,且并非直接针对对话评估进行优化。对话指标依赖于特定的对话特征来确定对话响应的质量,而 Pr - LM 的预训练过程是否能捕捉这些特征尚未得到广泛研究。此外,Pr - LM 的选择会显著影响 ADE 指标的性能和在各种评估任务及评估维度上的泛化能力。
2. 预训练语言模型的分类与特点
我们将八种最先进的 Pr - LM 变体根据其预训练目标进行分组,主要分为五组,前四组为标记级表示模型,最后一组为句子级表示模型。所有这些 Pr - LM 都基于变压器架构,其衍生的上下文嵌入对评估指标有益,因为它们能携带句子丰富的句法结构信息和语义含义,还编码了丰富的世界知识,有助于更好地确定生成对话响应的语言质量。
- 掩码语言建模(MLM)
- 原理 :MLM 是一种自监督预训练任务,语言模型会随机掩盖输入序列中的一些标记,学习目标是预测被掩盖标记的原始词汇 ID。给定一个包含 n 个标记的输入文本序列
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



