论文解读《Towards Lifelong Dialogue Agents via Relation-aware Memory Construction and ......》

一支王同学

已于 2024-11-21 00:29:34 修改

阅读量971

点赞数 33

分类专栏： NLP论文解读文章标签：大语言模型个性化文本生成对话生成 nlp

于 2024-11-21 00:25:47 首次发布

本文链接：https://blog.youkuaiyun.com/Wang_Dou_Dou_/article/details/143909337

版权

NLP论文解读专栏收录该内容

16 篇文章

订阅专栏

引言：感觉这篇的 idea 蛮新的，终身对话 LLMs、记忆连接图、… 等等，感觉好棒。学习学习，期待后面代码开源 ⭐️

✅ NLP 研 2 选手的学习笔记

笔者简介：Wang Linyong，NPU，2023级，计算机技术
研究方向：文本生成、大语言模型
论文链接：https://arxiv.org/abs/2406.10996v2，2024 Arxiv
项目链接：https://huggingface.co/spaces/ResearcherScholar/Theanine
中文标题：《基于关系感知记忆构建和时间轴增强回复生成的终身对话智能体》

在这里插入图片描述

文章目录

0 摘要(Abstract)
1 前言(Introduction)
2 方法(Methodologies)
3 实验设置(Experimental Setups)
4 评价方案1：自动评估和人工评价(Evaluation Scheme 1: Automatic and Human Evaluations)
5 评估方案2：`TeaFarm`——一个反事实驱动的长期对话评估管道(Evaluation Scheme 2: TeaFarm – a Counterfactual-driven Evaluation Pipeline for Long-term Conversations)
- 5.1 通过反事实问题测试对话主体的记忆(Testing Dialogue Agents’ Memory via Counterfactual Questions)
- 5.2 TeaFarm的结果(TeaFarm Results)
6 进一步的分析和讨论(Further Analyses and Discussions)
7 相关工作(Related Work)
8 结论(Conclusions)
9 参考文献(References)

0 摘要(Abstract)

● 为了实现人-代理(human-agent)的终身交互，对话代理(agent)需要不断地记忆感知信息并正确地检索它以进行回复生成（Response Generation, RG）。虽然之前的工作侧重于摆脱过时的记忆以提高检索质量，但这种记忆为长期对话中的 RG（例如，用户行为的变化）提供了丰富、重要的上下文线索。本文提出 THEANINE，一个基于 LLMs 的终身对话代理框架。THEANINE 放弃了记忆移除，并根据它们的时间和因果关系将它们连接起来管理大规模记忆。通过这种连接结构，THEANINE 增强了 RG 的记忆时间线——代表过去相关事件的演变或因果关系的一系列记忆。除了 THEANINE，我们还提出了 TeaFarm，一种反事实驱动的评估方案，解决了 G-Eval 和人类在测量记忆增强的对话代理方面的局限性。有关 THEANINE 的补充视频和 TeaFarm 的数据请见 https://huggingface.co/spaces/ResearcherScholar/THEANINE。

1 前言(Introduction)

● 基于大型语言模型（LLMs）的自主代理在各个领域取得了巨大的进展，包括回复生成(Zhou等人，2023；Kwon等人，2024；Tseng et al., 2024)，其中代理应该不断跟踪在其整个使用寿命期间与用户共享的旧信息和新引入的信息（Irfan et al., 2024），并进行相应的交谈。为了促进这种终身交互，有研究提出提高对话智能体在长期多会话对话中记忆和正确回忆过去信息（如讨论的主题）的能力。

● 一种代表性的方法是将过去的对话压缩为摘要记忆，并检索它们以增强后续对话中的回复生成（RG） (Xu等人，2022a；陆等，2023)。然而，随着对话的积累，记忆跨度的增长会阻碍检索质量。尽管在某种程度上，它可以通过更新旧的记忆来解决 (Bae等人，2022；Zhong et al., 2024)，这种常见的做法可能会造成严重的信息丢失。如图 1 (a) 所示，时间轴上较早的记忆，一个重要的角色（“害怕船只”），在记忆更新期间被删除，导致不适当的 RG。虽然使用最近的 LLMs 的大上下文窗口来处理所有对话历史/记忆是防止这种信息丢失的一种选择，但这往往会导致注意力偏向于最新的用户输入（图1 (b)），而忽略过去的相关上下文（Liu等人，2024）。这些发现突出了终身对话智能体面临的两个主要挑战——(i)记忆构建： 如何在不删除旧记忆的情况下有效存储大规模过去的交互？（ii）回复生成： 在不断增长的记忆广度中，如何识别相关的上下文线索来生成正确的回复？

在这里插入图片描述

图1：由于(a)时间轴上缺乏过去的重要事件（“害怕游轮”）和(b)对最新输入的偏差而失败回复的经验示例。(c)是随记忆时间线增强的回复。

● 从记忆构建开始（阶段Ⅰ），而不是堆叠原始记忆句子（Xu et al., 2022a），由于信息的非结构化格式，这可能会影响记忆检索和回复质量(Mousavi et al., 2023；Chen et al., 2023)，THEANINE 将记忆存储在有向图中。在这张图中，受人类如何根据相关事件的关系自然地将新记忆与现有记忆联系起来的启发（Bartlett, 1995），记忆利用它们的时间和因果常识关系进行联系（Hwang等人，2021）。在这种连接结构的支持下，在 RG 的记忆检索中（阶段Ⅱ-1），超越了传统的 top-k 检索，进一步获得了完整的时间线，以避免错过与当前对话文本重叠度低的重要记忆（Tao等人，2023）。最后，为了解决离线记忆构建和在线部署之间的差异，THEANINE 使用一个 LLM 来根据当前对话改进检索的时间线（阶段Ⅱ-2）（Madaan等人，2024年），从而为生成回复提供定制的信息（Chae等人，2023年）（阶段Ⅲ）。我们的贡献有两方面：

为实现终身对话智能体，本文提出 THEANINE，一种基于 LLM 的框架，具有关系感知记忆图和时间轴增强的长期对话回复生成。在 RG 的自动、基于 LLM 和人工评估中，THEANINE 的表现优于基线。此外，我们确认 THEANINE 导致更好的检索质量，其中间过程符合人类的偏好。据我们所知，我们是第一个在记忆管理和 RG 中对时间线的概念建模的人。
对话和参考记忆之间缺乏黄金映射，给评估记忆增强智能体带来了挑战。本文提出 TeaFarm，一种反事实驱动的管道评估代理在没有人工干预的情况下参考过去的性能。

2 方法(Methodologies)

● 本文提出 THEANINE，一个终身对话智能体框架，灵感来自人类如何存储和检索对话记忆（图 2）：

在这里插入图片描述

图2：THEANINE 概述。左：完成对话后将新的记忆连接到记忆图；右：在新的对话会话中检索、改进和生成记忆时间线。

2.1 存储图构建（阶段Ⅰ）[Memory Graph Construction (Phase Ⅰ)]

● 管理大规模j记忆并促进 RG 的结构化信息(Mousavi等人，2023；Chen等人，2023)，我们使用j记忆图 $G$ 来进行j记忆管理：

$\begin{aligned} G&=(V,E) & & & (1)\\ V&=\{m_1,m_2,\cdots,m_{|V|}\} & & & (2)\\ m&=(event,time) & & & (3)\\ E&=\{\langle m_i,r_{ij}, m_j \rangle | m_i, m_j \in V \land r_{ij} \in R\} & & & (4)\\ R&=\{\mathsf{Cause,Reason,Want,...,SameTopic}\}& & & (5) \end{aligned}$

Identifying associative memories for memory linking.

在 $G$ 中，顶点 $V$ 是从对话中总结出来的记忆 $m$ 。每个记忆 $m = (e v e n t, t im e)$ 由一个 $e v e n t$ (注：“event” 表示对话系统感知到的信息，包括说话人所做/说的事情和说话人角色的回执[acknowledgement]。) 和它形成（汇总）的时间组成。两个连通 $m$ 之间的有向边 $e \in E$ 表示它们的时序关系和因果常识关系 $r \in R$ ：

● 在对话会话 $t$ 结束时，THEANINE 开始将会话 $t$ 总结的每个新记忆 $m_{new}$ 连接到记忆图 $G^t$ 。

● 阶段Ⅰ-1：识别用于记忆连接的关联记忆。。研究人类如何将新的记忆与与相似事件/主题相关的现有记忆联系起来，即联想记忆，THEANINE 首先从记忆图 $G^t$ 中识别这些联想记忆。
形式上，给定一个新形成的记忆体 $m_{new}$ 等待存储， $m_{new}$ 的联想记忆体 $M_a$ 定义为：与 $m_{new}$ 具有 top-j 文本相似度的集合 $m_i∈G^t$ （即 $M_a| = j$ ）。

● 阶段Ⅱ-2：关系感知的j记忆连接。直观地说，我们可以使用表示其文本相似性和时间顺序的边将 $m_{new}$ 与 $m∈M_a$ 联系起来，发现这种简化的连接（例如，“这个发生了→类似的事件发生了”）可以产生一个缺乏上下文的图，对回复生成没有多大帮助（第 4 节）。
另一方面，人类通过考虑事件之间的关系来解释事件，例如 “一个事件如何影响另一个事件？” 或者 “为什么这个人做了那样的改变？” 因此，采用一种关系感知的记忆连接，两个记忆之间的边按时间顺序编码为它们的因果常识关系 $r \in R$ 。在实践中，采用了 Hwang等人（2021）定义的常用关系，包括 $\mathsf{HinderedBy,Cause,Want}$ 等，更多关系见附录B.1。
我们首先确定 $m_{new}$ 和每个联想记忆之间的关系。形式上，对于每一对 $m_{new}$ 和 $m∈M_a$ ， LLM 根据它们的事件、时间和起源对话赋予一个关系 $r \in R$ ：

$M^*_a=\{m_i\in M_a | \Upsilon(m_i,m_{new}) \in R\} \quad \quad \quad (6)$

其中 $Υ(·, m_{new})∈R$ 表示给定的记忆被赋予伴有 $m_{new}$ 的 $r \in R$ （注：受 retrievers 的限制， $m∈M_a$ 可能与 $m_{new}$ 没有关系。因此，我们允许 LLM 输出 “None”。），同时这种分配的记忆被定义为 $M^*_a$ 。

然后，我们继续将 $m_{new}$ 连接到图形(graph)。我们首先定位包含至少一个 $m∈M_a^∗$ 的每个连通分量 $C_i⊂G^t$ ，如图 3(a) 和 3(b)所示：

$\mathbb C=\{C_i ⊂ G^t | \mathtt V(C_i) ∩ M_A^* \neq ∅ \} \quad \quad \quad (7)$

其中 $\mathbb C$ 是 $C$ 和 $\mathtt{V}(·)$ [表示“在顶点中”] 的集合。然后，我们将每个 $C_i⊂\mathbb C$ 中的 $m_{new}$ 与最近的 $m∈M^*_a$ 联系在一起（图3 (c)）【注：仅仅将 $m_{new}$ 连接到所有 $m∈M^*_a$ ，在没有带来更好回复的情况下，连接的 API 成本增加了 25%。】。记忆 $M_{linked}$ 连接到 $m_{new}$ 的记忆定义如下：

$M_{linked}=\{Ω ( \mathtt V(C_i) ∩ M_A^* ) | C_i⊂\mathbb C \} \quad \quad \quad (8)$

其中 $Ω (\cdot)$ 表示 “在最近的记忆中”。

在这里插入图片描述

图3：定位要连接到 m_{new} 的记忆。

● 将会话 $t$ 中的所有记忆连接到 $G^t$ ，我们得到一个新的记忆图 $G^{t+1}$ 。第一阶段的伪代码在 算法1(Algorithm 1) 中。

在这里插入图片描述

2.2 时间轴检索和时间轴改进（阶段Ⅱ）[Timeline Retrieval and Timeline Refinement (Phase Ⅱ)]

● 借助构建的记忆图，THEANINE 可以继续用相关事件的时间线来增强 RG，解决传统记忆管理中的信息丢失问题（图 1）。在 $G^{t+1}$ 中，THEANINE 对 RG 执行以下步骤：

● 准备工作：进行 Top-k 记忆检索。在对话过程中，使用 $n$ 条对话(utterances) $u$ 的当前对话上下文 $\mathcal D = \{u_i\}_{i=1}^n$ 作为查询(query)，检索 top-k 个记忆 $M_{re} = \{m_{re1},…, m_{rek}\}$ 。

● 阶段Ⅱ-1：检索和解开原始j记忆时间线。我们还希望访问以 $M_{re}$ 为中心的记忆。形式上，给定 $m_{re}∈M_{re}$ ，通过连接结构进一步收集包含 $m_{re}$ 的连通组件 $C_{re}⊂G^{t+1}$ 。
由于图结构的原因，这个记忆集合（即 $C_{re}$ ）可以 “纠缠(tangled up)” 在一起（即以复杂的方式连接在一起），我们继续将其解纠缠到几个记忆时间线中，每个时间线代表关于 $m_{re}$ 的一系列事件，这些事件开始时相似，但分支到略有不同的发展。为此，我们首先在 $C_{re}$ 中定位最早的j记忆作为所有时间线的起点 $m_{start}$ ，如图 4(左) 所示。

$m_{start}=\Theta(\mathtt V(C_{re}))\quad \quad \quad (9)$

其中 $Θ$ 表示 “在最老的记忆中”。

在这里插入图片描述

图4：从检索到的连接组件 $C_{re}$ 中提取原始记忆时间线 $τ$

● 接下来，从 $m_{start}$ 开始，我们通过追踪未来方向来解开记忆，并从 $C_{re}$ 中提取每个可能的包含 $m_{re}$ 的线性图（图 4 中的两个），直到到达出度为 0 的端点 $τ [- 1]$ （即 $deg^+(τ[−1])= 0$ ），这意味着没有有向边从它出去)。它们中的每一个都被认为是原始记忆时间轴 $τ$ ，展示了 $m_{re}$ 及其相关事件的演化版本：

$\mathcal T=\{\tau ⊂ C_{re} | \tau \, \text{is} \, \text{a} \, \text{directed}\, \text{linear}\, \text{graph} \, \text{s.t.} \, m_{start},m_{re}\in\tau \land deg^+(\tau[-1])=0\} \quad(10)$

然后我们从 $\mathcal T$ 中采样 $n$ 个原始时间线 $τ$ （根据我们的实验，我们根据经验将 $n$ 设置为 1 ）。对于所有检索到的 top-k 个记忆，我们收集了一组检索到的原始记忆时间线 $\mathbb T =∪\mathcal T$ ，其中 $|\mathbb T| = k∗n$ 。

● 阶段Ⅱ-2：上下文感知的时间线细化。尽管我们使用时间和常识关系来构建记忆图以提高其信息量，但直接为 RG 应用检索到的时间线可能是次优的（RQ3，第 4节），因为图的构建没有考虑当前的对话，即它们是 离线(off-line) 构建的。

● 在这个阶段，THEANINE 通过上下文感知的时间线细化，解决了离线记忆构建和在线部署（即，正在进行的对话）之间的差异。受 LLMs 如何细化(refine)其上一代模型的启发（Madaan等人，2024）。利用 LLMs 将原始时间线细化为当前对话精心设计的丰富信息资源，通过删除冗余信息或突出显示可能有用的信息。形式上，给定当前的对话 $\mathcal D$ 和检索到的原始时间线 $\mathbb T$ ， LLM 将 $τ∈\mathbb T$ 裁剪为精确的时间线 $\mathbb T_Φ$ ：

$\mathbb T_Φ=\{\argmax \limits_{\tau_Φ} P_{\text{LLM}}(\tau_Φ|\mathcal D,\tau) | \tau\in \mathbb T\}\quad\quad\quad(11)$

然后使用所有改进的时间线 $\mathbb T_Φ$ 来增强回复生成。下文给出了 算法2(Algorithm 2) 中阶段Ⅱ的伪代码。

在这里插入图片描述

2.3 时间轴增强的回复生成（阶段Ⅲ）[Timeline-augmented Response Generation (Phase Ⅲ)]

● 现在，THEANINE 利用 RG 的精确时间线。形式上，给定 $\mathcal D = \{u_i\}^n_{i=1}$ 和 $\mathbb T_Φ$ ， LLM 生成下一个回复 $\bar u_{t+1}$ ：

$\bar u_{n+1}=\argmax\limits_{u_{n+1}}P_{\text{LLM}}(u_{n+1}|\mathcal D,\mathbb T_Φ)$

3 实验设置(Experimental Setups)

3.1 长期对话的数据集(Datasets of Long-term Conversations)

● 很少有长期、多会话会话的数据集。首先，多会话聊天（Multi-Session Chat, MSC）（Xu et al., 2022a），它建立在角色聊天（Zhang et al., 2018）的基础上，通过将其对话扩展到多个（五个）会话。在 MSC 之后不久，DuLeMon （Xu et al., 2022b）和 CareCall （Bae et al., 2022）被建议用于汉语和韩语的长期对话。最近，Jang 等人（2023）发布了一个新的数据集，Conversation Chronicles （CC）。与 MSC不同的是，CC 中的说话人增加了关系，例如 “员工和老板”。除了上述开放域数据集之外，还有心理问答(Psychological QA)，它解决了有关临床场景的普通话长期对话。
我们使用 MSC 和 CC 进行评估。我们专注于英语对话，因此不采用 DuleMon、CareCall 和 Psychological QA，并将多语言和临床设置留给未来的工作。

3.2 基线(Baselines)

● 为了评估 THEANINE，除了使用所有过去的对话或记忆的简单基线外，我们还包括：

记忆检索（Memory Retrieval）。继Xu等人（2022a）之后，我们使用检索器来检索与当前对话上下文相关的记忆，以增强RG。
记忆更新（Memory Update）。在每个会话结束时，使用 LLMs 运行 Bae 等人（2022）提出的广泛使用的更新算法。该算法包括更改、替换、删除、添加等功能（参见附录 H）。
RSum-LLM。一种仅用 LLM 的生成方法，递归总结和更新记忆池，并相应地生成回复（没有检索模块）（Wang et al., 2023）。
MemoChat。由 Lu 等人（2023）提出，它利用 LLMs 的 CoT 推理能力来：(i)以结构化的主题-摘要-对话的方式从过去的对话中总结出重要的记忆；（ii）选择记忆；以及（ii）产生回复。
COMEDY。由 Chen 等人（2024b）提出，它使用 LLMs 来总结会话级记忆，将所有记忆压缩为短事件、用户画像（行为模式、情感等）和用户-机器人关系，并选择它们来增强 RG。

3.3 模型和实现细节(Models and Implementation Details)

● 大型语言模型。在包括基线的所有实验中，采用 gpt-3.5-turbo-0125 （OpenAI, 2023）进行 (i)记忆摘要（表4）；（ii）记忆更新和（iii）回复生成。我们把温度调到 0.75。

● Retrievers。我们使用 text-embedding-3-small（OpenAI, 2024b）来计算文本相似度。在 top-j 联想记忆识别（阶段Ⅰ-1）和 top-k 联想记忆检索（阶段Ⅱ）中，我们将 j 和 k 设置为 3。对于 “记忆检索” 基线(baseline)，遵循 Xu 等人（2022a）的眼界，我们检索了 6 个记忆。

● 对话会议。我们使用 MSC 和 CC 的会话 3-5 进行评估，因为所有方法在会话 1-2 中几乎相同（没有记忆要更新）。

4 评价方案1：自动评估和人工评价(Evaluation Scheme 1: Automatic and Human Evaluations)

● 为了评估 THEANINE 在长期对话中的回复，我们遵循常见的做法，进行了 3 种类型的评估：(i)自动评估；（ii） G-Eval (Liu等人，2023)，一个常用来评估语言模型生成的基于 LLM 的框架；（三）人工评价。我们现在展示主要发现（方案 1 的详细信息、提示和评估界面见附录 E）：

● （发现1）THEANINE 在回复生成方面优于基线。表 1 报告了基于重叠和基于嵌入的指标在 RG 中的性能：Bleu-4 （Papineni等人，2002年）、Rouge-L （Lin， 2004年）、Mauve （Pillutla等人，2021年）和 BertScore （Zhang等人，2020年）。THEANINE 在两个数据集上都比不同的基线取得了更好的回复质量。尽管在 MSC 中，与基于重叠的指标（即 B-4 和 R-L）的记忆检索相比，THEANINE 的分数略低，但在基于嵌入的指标方面，THEANINE 在很大程度上优于它。有趣的是，包括我们的，没有记忆更新的方法通常会产生更高的分数，这证明了我们为终身对话代理提供无更新记忆管理的建议是合理的。

在这里插入图片描述

表1：回复质量的自动评估（会话的平均值）。特定会话的结果在附录 F 中。

● （找到2和3）所有阶段都有助于性能；从整体上检索时间线比传统检索带来了很大的改进。为了对设计有更深入的了解，展示了在连接中的关系意识（阶段Ⅰ-2）和时间线细化（阶段Ⅱ-2）被消融时，THEANINE 的表现。此外，为了客观评估 THEANINE 的检索（即检索整个时间线）是否提高了检索质量，本文包括一个设置，将检索的时间线分解为随机排序的事件，这样在 RG 期间检索的记忆与传统的 top-k 检索具有相同的格式。
在表 2 中，我们观察到对性能的贡献排名：关系感知的连接 $>$ 检索时间线连接为整体 $>$ 时间线细化。证实了构建具有因果关系的记忆图的有效性。此外，利用这种结构来收集相关事件的时间线，比传统检索产生了更好的 RG，尽管初始检索的 k 较小（3 vs. 6）。优化时间轴显示出较小的性能提升，这表明将它们应用于 RG 还有改进的空间。我们把它留给以后的工作去做。
在这里插入图片描述

表2：消融的性能（数据集的平均值）。

● （发现4）人类和G-Eval都显示 THEANINE 提取的记忆更有助于回复的产生。除了智能体的回复，本文进一步研究了不同的记忆构建方法如何影响检索记忆在增强 RG 方面的有用性。给定与检索查询相同的当前对话，图5 (左；G-Eval；右：人类评估)显示了面对面的比较（我们的模型 vs 基线），关于谁的记忆更有利于回复的产生。在所有比较中观察到 THEANINE 的胜率更高，特别是在人工评估中，这表明我们的方法可以促进更有帮助的 RG 的记忆增强。

● （发现5）人类证实 THEANINE 在过去的交互中产生了更好的回复。现在 THEANINE 提取的记忆的有用性已经得到验证，我们继续研究这种有用的记忆是否可以帮助我们促进可靠的终身对话代理。
为此，进一步要求一组工作者通过多数投票具体判断代理的回复是包含、抵触还是对过去保持中立。在图 6 中，我们发现 THEANINE 不仅导致少数矛盾回复（4%），而且显示了最大的比例(68%；在包含过去对话的 100 个回答中，明显优于基线。本文认为，这是因为基于时间线的方法在表示说话人之间过去的互动时，能更好地激发记忆，从而导致回复更直接地与过去一致，这对对话智能体与用户保持长期的亲密关系很重要（Adiwardana等人，2020）。此外，THEANINE 回复的这种包含、不矛盾的性质突出了其在特定领域的应用潜力，如临床场景的个性化代理，其中代理回复和用户过去的信息（如电子健康记录或以前的咨询会话）之间的关系对诊断决策至关重要（Tseng 等人，2024）。
作为旁注，记忆更新产生较少的矛盾回复（2%），表明（i）删除过时的记忆以防止矛盾和（ii）保留它们以获得 RG 更丰富的信息之间的潜在权衡（Kim et al.，2024a）。

在这里插入图片描述

图5：人类（右）和基于机器（左）在检索记忆的有用性方面与基线进行的正面比较。

● （发现6）人类同意 THEANINE 的中间过程。如图 7 所示，92% 的评委认为 THEANINE 恰当地将因果关系分配给了关联记忆，从而解释了它对表现的贡献。此外，他们同意时间线细化成功地引出了更多有用的信息(100%；共100个样本)为RG。THEANINE 的相和RG的例子见附录G。

● （发现 6）人类同意 THEANINE 的中间程序。如图 7 所示，评委们基本上同意（92%）THEANINE 正确地将因果关系分配给关联记忆，解释了它对性能的贡献。此外，他们同意时间线细化成功地为 RG 获得了更多有用的信息（100%；总共 100 个样本）。THEANINE 的阶段和 RG 的示例在附录 G 中。

在这里插入图片描述

图7：中间阶段的人工评估。

5 评估方案2：`TeaFarm`——一个反事实驱动的长期对话评估管道(Evaluation Scheme 2: TeaFarm – a Counterfactual-driven Evaluation Pipeline for Long-term Conversations)

● 由于当前对话和正确记忆之间的真实映射无法用于检索，因此在长期对话中评估记忆增强智能体是非常有意义的。虽然可以通过向评估器LLM（如GPT-4）提供整个过去的历史来求助 G-Eval，并提示它确定一个回复是否正确地回忆过去，但评估在很大程度上可能会受到评估器LLM 本身的性能的限制（Kim等人，2024b）。
● 为了克服这个问题，我们与 THEANINE 一起推出了 TeaFarm，这是一个无需人工的反事实驱动管道，用于评估长期对话中的记忆增强回复生成。

5.1 通过反事实问题测试对话主体的记忆(Testing Dialogue Agents’ Memory via Counterfactual Questions)

● 在 TeaFarm 中，我们进行 “欺骗式” 对话，以使代理生成不正确的回复，代理必须正确地引用过去的对话，以避免被我们误导。具体来说，我们与对话代理交谈时，就好像一个非事实的陈述是真实的（因此是反事实的）。图 8 展示了一些反事实问题的例子和相应的事实。

在这里插入图片描述

图8：反事实问题的例子。

● 在实践中（图10），当我们想要评估一个已经与用户进行会话交互的代理时，我们首先（1）收集所有过去的会话，并逐个会话式地总结它们。（2）将收集到的摘要按时间顺序提供给问题生成器 LLM【注：我们在 0.75 的温度下应用 GPT-4 】，以便它可以捕捉每个讨论事件的当前阶段，例如，“说话者 B 没有汽车”，以及（3）从说话者的角度（和正确答案）生成反事实问题。之后，我们（4）启动（即模拟）一个新的对话会话，聊天一段时间，然后（5）自然地提出反事实问题，并（6）评估其回答的正确性。TeaFarm 的概览图、提示和合成数据分别在附录 C、H、D 中。

5.2 TeaFarm的结果(TeaFarm Results)

● 在表 3 中，THEANINE 表现出比基线更高的 SR，特别是在 CC 中。消融表现略差于原始模型，再次证明了关系感知连接和时间线细化的有效性。令人惊讶的是，所有设置都具有较低的 SRs，使 TeaFarm 有资格成为长期对话中对对话代理进行压力测试的适当管道(pipeline)。

在这里插入图片描述

表3：TeaFarm 中正确回忆过去和不被反事实问题愚弄的成功率（包含200道测试题）

● 有趣的是，使用检索器（与 THEANINE 相同）的基线显示出比仅依赖于 LLMs（即 RSum-LLM、MemoChat 和 COMEDY）的设置更好的性能。出乎意料的是，这支持了我们在 LLMs 时代开发记忆管理新范式的努力【注：记忆更新不会影响记忆检索的性能。我们认为这是因为反事实问题是为了对抗每个事件的最新阶段。因此，移除旧的记忆并没有太大的影响】。

6 进一步的分析和讨论(Further Analyses and Discussions)

● 成本效率。THEANINE 的一个问题是 API 的成本。无论如何，我们认为，当同时考虑性能和成本时，它是有竞争力的。图 9 绘制了h回复质量（Mauve得分）与API成本的关系发现 THEANINE 和所有消融不仅优于所有基线，而且位于帕累托边界，表明了有效的性价比权衡。这表明当性能优先于API成本时，THEANINE 的价值。【根据会话 5 计算，该会话涉及大部分用于管理的内存。我们使用 Mauve，因为它在各种指标上与人类的相关性更强（Pillutla等人，2021）】

在这里插入图片描述

图9：性价比比较。

● 不断增长的记忆。剩下的另一个问题可能是，如果 THEANINE 有数百个会话，那么不断增长的记忆广度是否最终会阻碍记忆的提取。虽然对于传统的记忆检索来说，这可能是一个严重的问题，但我们假设 THEANINE 会在一定程度上缓解这一问题，因为：(1)我们以时间轴的形式检索相关的记忆作为一个整体。在 top-k 检索中遗漏了重要记忆的情况下，这可以作为一个安全网——它仍然可以随着时间线一起检索；（ii）对时间线进行细化，以根据当前对话上下文进一步调整检索的时间线，以便为回复生成器提供定制的信息。这是防止次优检索的第二种保证。

7 相关工作(Related Work)

● 长期的对话。由于 MSC，有一些关于长期对话的研究：Bae等人（2022）训练一个分类器，以在通话场景中更新旧的记忆。随着我们进入 LLMs 时代，Wang等人（2023）和Li等人（2024）利用 LLMs 为 RG 编写和更新内存。除了 LLMs 的力量，人类行为也培养了这一领域的方法。例如，Zhong等人（2024）应用人类的遗忘曲线，使讨论过的记忆在记忆池中停留的时间更长。最近，Maharana 等人（2024）也采用了时间表的概念。然而，在他们的工作中，时间线是固定的、预定义的一系列事件（可能不相关），它只是作为合成对话数据的用户配置文件。相比之下，在本文工作中，用相关事件构建了时间轴，随着对话的进行，这些事件被动态连接和检索，作为生成回复的有用线索。

● 个性化对话代理的记忆增强。与自主智能体的长期交互趋势促进了它们对个性化需求的适应（Chen等人，2024a,c）。作为先驱，Xu等人（2022b）训练了一个角色提取器来创建基于用户的记忆。然而，由于缺乏数据，训练长期使用的个性化智能体可能并非易事（Tseng等人，2024）。作为一种解决方案，Kim等人（2024a）应用常识模型和 LLMs，用高质量的人物角色句子来扩充现有的长期数据；Chen等人（2024b）提出了一种基于 LLMs 的免训练框架，从对话中提取用户行为以进行个性化 RG。在 LLMs 成功之后，THEANINE 利用它们来构建记忆时间线。这些时间线代表了交互的发展，并导致更好地包含说话人信息的回复，建立了THEANINE 对个性化代理的潜力。

8 结论(Conclusions)

● 本文提出了一个第一个基于时间轴的长期对话记忆增强对话代理框架。综合评估表明，THEANINE 有助于更有益的增强，使回复更接近真实情况，更符合说话人过去的互动。其有效性在 TeaFarm 中得到了进一步证实，本文提出一种基于问答的管道(pipeline)，以解决 G-Eval 和人类在评估记忆增强 RG 时的局限性。我们希望我们的新方法成为迈向终身对话代理的新基础。