能否预测跨来源、语言和领域的口语理解语料库的挑战性?
在当今的技术环境下,口语对话系统中的口语理解(SLU)模型取得了显著进展。但不同语料库的挑战性差异很大,如何预测和分析这种挑战性是一个关键问题。本文将深入探讨相关方法和实验结果。
1. 引言
在Transformer时代,口语对话系统的口语理解模型在众多基准任务中取得了出色成果。先进的模型通常先在大量域外文本上进行预训练,再在域内数据上进行微调,以生成所需的语义表示,常见的是意图 + 概念/值标签。
这种策略提升了模型性能,主要得益于预训练上下文嵌入的泛化能力。然而,一些基准语料库(如ATIS)上模型性能近乎完美,但其他语料库仍具有挑战性,性能会受到训练数据的数量和质量、语义标注方案的复杂性和歧义性的影响。
标准基准数据集存在一些问题,它们可能缺乏现实服务中出现的难题,且语料库中话语的分布不一定反映现实使用情况。因此,我们需要回答以下问题:如何表征语料库的挑战性?哪些因素导致某些话语难以被基于Transformer的模型处理?能否自动预测新语料库的复杂性并对数据进行分区?
2. 预测语料库复杂性
为了预测语料库的复杂性,我们采用了受NIST识别器输出投票误差减少方法启发的策略。该方法通过对多个识别器的输出进行投票来提高决策的鲁棒性,因为统计训练模型的输出存在一定的不确定性。
具体步骤如下:
- 第一步 :
1. 选择L个SLU语料库,这些语料库需进行单词级别的概念标注,并划分为训练集、开发集和测试集。
2. 选择N个深度神经网络(DNN)序列标注器,它们采用不同的DNN架构和单
超级会员免费看
订阅专栏 解锁全文
21

被折叠的 条评论
为什么被折叠?



