FutureTOD: Teaching Future Knowledge to Pre-trained Language Model for Task-Oriented Dialogue-优快云博客

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/133889548

FutureTOD是一种新型的对话预训练模型，通过自训练框架将未来知识融入对话上下文表示。该模型提高了在任务导向对话任务中的泛化、鲁棒性和学习歧视性对话表征的能力，优于TOD-BERT和DSE等基线。

本文是LLM系列文章，针对《FutureTOD: Teaching Future Knowledge to Pre-trained Language Model for Task-Oriented Dialogue》的翻译。

摘要

基于通用文本的预训练语言模型在NLP场景中取得了巨大成功。但是，一般文本和任务导向对话之间语言模式的本质差异使得现有的预训练的语言模型在实践中用处不大。目前的对话预训练方法依赖于对比框架，并面临着选择真正积极因素和硬消极因素的挑战。在本文中，我们提出了一种新的对话预训练模型FutureTOD，该模型使用自训练框架将未来知识蒸馏到先前对话上下文的表示中。我们的直觉是，一个好的对话表达既能学习当地的上下文信息，又能预测未来的信息。对不同下游对话任务的大量实验证明了我们模型的有效性，特别是泛化、鲁棒性和学习歧视性对话表征能力。

1 引言

2 模型

3 实验

4 定性分析

5 相关工作

6 结论

我们提出了一种新的对话预训练模型FutureTOD，它将未来的知识蒸馏到对话表征中。与现有的对比工作不同，我们采用了一个简单的自我训练框架来相互学习，并消除对比对的要求。我们对各种面向任务的对话任务进行了全面的实验，包括意图分类、域外检测、对话状态跟踪、对话行为预测和反应选择。FutureTOD在所有场景中都显著优于TO