Abstract : 长期开放域对话的现有作品着重于评估不超过五个聊天会议的上下文中的模型响应。尽管LongContext大语言模型(LLM)和检索增强发电(RAG)技术的进步,但在长期对话中的功效仍未得到探索。为了解决这一研究差距,我们引入了一条机器人类管道,通过利用基于LLM的代理体系结构并将其对话在角色和时间事件图上进行对话,以生成高质量的长期对话。此外,我们为每个代理配备了共享和对图像反应的能力。人类注释者对生成的对话进行了验证和编辑,以使其长期一致性并接地到事件图。使用此管道,我们收集了Locomo,这是一个非常长期对话的数据集,每个都包含大约。最多32次会议,在AVG。上有600圈和16K令牌。基于Locomo,我们提出了一个全面的评估基准,用于衡量模型中的长期记忆,包括问题答案,事件摘要和多模式对话生成任务。我们的实验结果表明,LLM在理解冗长的对话以及理解对话中的远程时间和因果动态方面表现出挑战。采用诸如长篇小说LLM或抹布之类的策略可以提供改进,但这些模型仍然远远落后于人类绩效。
图1:机车中的一个示例。对话是由演讲者的角色和相应的事件来指导的,例如,乔安娜的回答与她的宠物过敏是一致的。对于Nate而言,该活动得到了新的狗,之后是与邻居的狗一起玩日期,展示了长期记忆。通过图像共享和图像响应行为启用了多模式对话框。
1 Introduction 简介
尽管最近在基于LLM的对话模型方面取得了进步(Bertsch等,2023; Xiao等,2023),以及检索增强生成(RAG)的整合(RAG)技术(Shuster等,2021; Ram等,2023; Shi等,2023),仍然需要彻底评估它们在处理非常长的对话中的功效。实际上,长期opendomain对话中的研究集中于评估有限环境中的模型响应,例如,在五个聊天过程中约为1k令牌(Xu等,2022; Jang等,2023b; Zhang等,2023)。这项长期评估对于精炼能够记住过去互动中的关键信息而引起的关键信息以产生善解人意,一致和有用的响应至关重要。为此,我们介绍了非常长期的开放域多模式对话的首次研究,这是通过人机管道收集的现实世界互动的紧密反映现实世界的互动然后要求人类注释者解决对话中的任何长期不一致之处。具体而言,了解现实世界对话是集体记忆的复杂融合的理解(Assmann和Czaplicka,1995; Hirst and Manier,2008),个体观点(Hirst等,2018),外部影响(Hirst and Echterhoff,2012年) ),以及演讲者的独特角色(Pruitt and Grudin,2003; Cooper,1999; Zhou等,2020; Shum等,2019),我们基于LLM代理商进行了非常长的对话,具有以下功能:(( 1)独特的角色(§3.1); (2)他们生活中因果关系中互联事件的时间表(§3.2); (3)反映和响应机制根据对话历史记录(如Park等人(2023))和图像共享和图像反应行为的响应,该行为向图像发送或反应(§3.3)。最后,人类注释者在对话中固定远程不一致,删除无关的图像,并验证对话的接地(第3.4节)。使用此管道,我们创建了Locomo,这是一个由10个非常长期对话的数据集,每个对话的数据集由600个转弯和16K令牌组成,最多可达32个会话(请参见图1,表1)。
在开放域对话中评估对话剂的常规方法涉及基于过去的对话历史直接评估代理响应。它经常在地面真理与代理响应或一致性之间(Ghazarian等,2022),矛盾(Nie等,2021; Welleck et al,2021; Welleck et et al,papineni等,2002)和语义重叠(Zhang等,2019)(Zhang等,2019); Al,2019年)和同理心(Zhang等,2021a,2022)。但是,这些评估指标并不适合直接评估代理人对长期环境的理解。在这项研究中,我们提出了一个整体评估框架,以评估代理在长期背景下管理和响应的熟练程度(见图2)。首先,代理需要正确地“召回”过去的上下文,以整合相关的信息
图2:我们的评估框架概述。我们提出三个任务:问题回答,事件摘要和多模式对话框生成,以在长期对话中评估模型的理解。
融入未来的回应。我们通过回答(QA)任务(§4.1)直接检查他们的记忆。我们将问题分类为五种不同的推理类型,以从多个角度评估记忆:单跳,多跳,时间,常识,常识或世界知识以及对抗性。其次,代理还需要在对话中识别远程因果关系和时间联系,以产生善解人意和相关的反应。我们通过事件图摘要任务(第4.2节)提出了对它们的因果关系和时间理解的测量。在此任务中,链接到每个LLM扬声器的事件图是正确的答案,并且模型的任务是从对话历史记录中提取此信息。第三,对话代理需要利用过去对话中召回的相关上下文,以产生与正在进行的叙述一致的响应。我们通过多模式对话生成任务(第4.3节)评估此功能。
我们使用基于指令的LLM,Long-Contept