【对话系统】Continual Dialogue State Tracking via Reason-of-Select Distillation

论文信息

标题:Continual Dialogue State Tracking via Reason-of-Select Distillation

作者:Yujie Feng, Bo Liu, Xiaoyu Dong, Zexin Lu, Li-Ming Zhan, Xiao-Ming Wu, Albert Y.S. Lam

期刊:ACL FINDING 2024

发布时间与更新时间:2024.08.19

主题:对话系统、大语言模型、知识蒸馏、持续学习、对话状态跟踪

paper:2024.findings-acl.422.pdf (aclanthology.org)

code:https://github.com/WoodScene/RoS

模型

作者提出了一种将 LLM 的推理能力蒸馏给 SLM ,让 SLM 利用学习到的推理能力进行持续的状态追踪(Continual Dialogue State Tracking)。作者考虑到持续 DST 任务中的两个困难:① 槽值选择困难(Value Selection Quandary):槽值在对话中被提及多次,并进行了多次修改,选择其中真正满足用户意图的正确槽值是困难的。如图 1 1 1 右所示;② 灾难性遗忘(catastrophic forgetting):在不同域上训练时,模型会为了学习新域的知识,而忘记训练较早的域知识,导致模型在不同域上的泛化能力差,持续对话状态跟踪任务如图 1 1 1 左所示。

image-20241010190518686

图 1    持续对话状态跟踪的域变化现象(左)和对话状态动态变化的现象(右)

作者希望将 LLM 的推理能力传授给 SLM,让 SLM 具备底层的推理能力,即“元推理”能力(meta reasoning),而不是关注与域相关的特点。因此,作者设计了一种 prompt 策略,称为多值解析(multi-value resolution),让 LLM 输出的推理过程更加关注从对话中提到的多个槽值中选择正确槽值,而不是使用像 “Let’s think step by step” 这种 prompt 策略,因为这类 prompt 更加关注如何确定正确槽值的位置。

另外,为了缓解 LLM 输出的推理过程的幻觉问题,作者还设计了”语义对比推理选择“方法(Semantic Contrastive Reasoning Selection),让模型生成多个候选推理过程,锚点,以及负样本,选择与锚点最接近,同时与负样本最远离的推理过程用于训练 SLM。具体来说,让 LLM 根据专门设计的多种错误答案生成若干个推理过程,作为添加扰动后的推理过程(负样本);使用多值解析 prompt,让 LLM 根据正确答案多次生成推理过程,作为候选推理过程(正样本);使用一般的 prompt 策略(比如”Let’s think step by step“),让 LLM 生成推理过程,作为锚点推理过程(anchor)。将这些推理过程映射到同一个语义空间,选择与锚点距离最近,与所有负样本距离最远的正样本。SLM 采用 seq2seq 的生成模型,输入为对话内容和槽名称,输出为推理过程和槽值,teach-forcing 的方式进行训练。本质上,是用 LLM 生成推理过程作为 SLM 训练时的辅助信息(或额外的监督信号)。如图 2 2 2 所示。

image-20241010190641501

图 2    RoS 流程

需要注意的是每个样本只包括一个槽值对,而不是要求 LLM 或 SLM 一次性将全部的槽值都识别出来,而只需要确定给定槽对应的值即可。作者提出的多值解析(multi-value resolution)prompt 策略对应图 2 2 2 左侧。再根据作者提出的语义对比推理选择(Semantic Contrastive Reasoning Selection)方法确定 sliver 推理过程,SLM 根据图 2 2 2 右侧蓝色部分,生成橙色部分。

image-20241010194946420

图 3    两种扰动方式

另外,受到文本生成任务中的对比解码的启发,作者采用了两种扰动策略生成负样本,如图 3 3 3 所示。第一种扰动策略是值级别的扰动(value-level),即替换 ground truth 槽值为合理但是错误的值;考虑到教师模型(LLM)的鲁棒性,LLM 通常可以检测到错误并提供正确的解释,为了避免值级扰动不会导致 LLM 输出错误的推理过程,作者还引入了槽级扰动(slot-value),即随机选择一个其他对话中的槽值对提供给 LLM,让其生成错误的推理过程。

实验

数据集是 SGD。使用 ChatGPT 和 LLaMA-2-70B 作为教师模型,T5-small、T5-base、FlanT5-XL 和 LlaMA-7B 作为学生模型。生成五个候选推理过程以及三个值级和三个槽级扰动负推理。

评测指标:规定

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不牌不改

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值