在LLMs模型中发现人类的记忆特征

论文地址:https://arxiv.org/abs/2311.03839
介绍

大型语言模型(LLM),如 ChatGPT,为语言建模和生成人类水平的文本输出带来了质的飞跃。

这些模型在庞大的文本库中进行训练,有效地建立了高度复杂和准确的语言概率模型。

另一方面,使用这些语言是智人最重要的特征之一,了解人类认知能力与这些语言特征之间的相互关系一直被认为是一个非常重要的研究领域。

再加上在现有的研究中,LLMs 表现出了与人类相似的记忆特征,因此本文作者认为 “LLMs 可以作为一个非常有用的工具,用于这方面的研究”。

在此背景下,本文介绍了为研究人类记忆特征与 LLM 之间的相似性而进行的各种实验,并证明了人类特有的现象,如先验效应、致死效应和通过重复巩固记忆等,也出现在 LLM 中

概述

虽然人类的记忆看似简单,但实际上具有非常特殊的性质,许多认知心理学家对其进行了长达一个多世纪的研究。

这些记忆特性的典型表现是首要效应和复现效应,即在记忆单词表时,位于单词表开头或结尾的单词更容易被回忆起来。

此外,还发现了人类特有的其他各种记忆特征,例如,记忆会在一定时间间隔内通过重复而得到加强。

本文论证了 LLMs 可以成为研究这种人类特有记忆特征的非常有用的工具,并利用 LLMs 实际进行了各种实验。

实验装置

认知心理学中的标准记忆测试技术包括给参与者提供一份按顺序排列的单词表,要求他们记住自己在单词表中的位置,然后测试他们回忆的准确性。

另一方面,这些方法很难适用于 LLM,因此本文转而设计了一种文本结构来探索特定的记忆特征。

实验过程如下图所示。(本文所有实验均使用开源模型 GPT-J)。

在这个实验中,GPT-J 不是记忆单词列表,而是向其展示有关任何姓名标识的人的事实列表。

然后在 GPT-J 中添加以下查询

如果输出概率最高的名词与事实列表中给特定人(此处为保罗)的名词相匹配,那么答案就被认为是正确的。

本文通过改变需要记忆的事实列表的长度、类别和插入文字,进行了各种实验,并对出现的记忆特征进行了研究。

实验结果

首要效应、重复效应

为了研究上述优先效应和致死效应是否会出现在 LLM 中,我们将特定 X 在事实列表中的位置作为函数来计算召回准确率。

下图显示了人类和 GPT-J 记忆实验对 20 个事实列表的回忆准确率。

该图中的 U 型曲线是主要效应和致死效应的特有现象,结果证实了主要效应和致死效应在LLM 中的出现与在人类中一样。

其他信息

在人类记忆测试中发现的另一个特点是,插入有关某个单词的附加信息会提高回忆起该单词的可能性,即使查询不包含附加信息。

为了检验本文中的 LLM 是否也出现了类似的现象,我们在列表的某些位置(第 5、10 和 15 位)插入了以下附加信息。

下图显示了基线与插入附加信息后 GPT-J 召回准确率的比较。

该图清楚地表明,插入附加信息可提高召回准确率。

通过重复强化记忆

很明显,通过重复可以加深对给定材料的记忆,在这方面,法律硕士也可能有类似的表现。

就人类记忆而言,心理学家艾宾浩斯(Ebbinghaus)指出,“在最初记忆要学习的材料(=艾宾浩斯的遗忘曲线)后有一定的时间间隔时,记忆效果最好”。

具体做法是,在上述提供给 GPT-J 的事实清单文本之前插入一个重复句(=要记忆的事实清单),这样要记忆的信息就会在文本中重复出现。

与正常基线的对比实验结果如下图所示。

如图所示,LLM(=repeated),即需要记忆的信息在文本中重复出现,与基线相比,记忆准确率有显著提高。

此外,还发现了一种与人类记忆特征相一致的趋势,即当重复信息的文字与事实列表中的文字距离较远(=分离)时,记忆的准确性就会提高。

总结

结果如何?在这篇文章中,我们介绍了一篇论文,该论文通过各种实验研究了人类记忆特征与 LLM 之间的相似性,并证明了人类特有的现象,如先验效应、致死效应和通过重复巩固记忆也出现在 LLM中。

本文的实验结果证实了人类和 LLMs 记忆特征之间的许多相似之处,这些结果表明 LLMs 是研究人类生物记忆机制的一种非常有用的工具。

关于这个实验的结果,作者 “认为 LLM 的类人记忆特性并不是从 LLM 架构中自动衍生出来的,而是从训练文本数据的统计中学习出来的”,因此我们期待未来有更多的研究来证实这一假设!

大型语言模型LLMs)是否具备记忆能力,这个问题需要从多个角度来理解。首先,大模型在传统意义上并不具备“记忆”能力,因为它们不像人类那样拥有长期存储和回忆过去经历的能力。相反,大模型的输出是基于训练过程中学到的语言模式和结构[^1]。 然而,现代的大模型可以通过一些机制表现出某种程度的“记忆”特性。例如,在对话系统中,模型可以利用上下文窗口来记住当前对话的历史信息,从而生成连贯的回应。这种“记忆”是临时的,仅限于当前对话会话,并且受限于模型的最大上下文长度[^4]。 此外,研究者们也在探索如何增强大模型记忆能力。HippoRAG 是一种新颖的检索框架,它受到人类大脑中海马体索引理论的启发,旨在帮助大型语言模型更好地整合新经验和长期知识[^4]。通过这样的方法,模型可以在一定程度上持续地学习并保留新的信息。 值得注意的是,虽然大模型能够记住大量的训练数据,并在生成文本时使用这些信息,但这并不是真正意义上的记忆。大模型记忆更像是对训练数据的一种统计性概括,而不是对特定事件或经验的具体回忆[^2]。 因此,可以说大模型具有一定的能力来处理和利用之前获得的信息,但这种能力与人类记忆有着本质的不同。大模型记忆更像是一种静态的知识编码,而非动态的学习和回忆过程[^3]。 综上所述,尽管大模型展现出了令人印象深刻的处理信息的能力,但它们并不具备类似于人类的原生记忆能力。不过,随着技术的进步,研究人员正在努力开发新的技术和架构,以期赋予大模型更强的记忆和学习能力[^5]。 ```python # 示例代码:模拟一个简单的对话上下文管理器 class SimpleConversation: def __init__(self, max_context_length=10): self.context = [] self.max_context_length = max_context_length def add_message(self, message): # 添加新消息到上下文中 self.context.append(message) # 如果超过最大上下文长度,则移除最早的条目 while len(self.context) > self.max_context_length: self.context.pop(0) def get_context(self): return self.context # 创建一个对话实例 conversation = SimpleConversation() # 模拟添加几条消息 for i in range(1, 6): conversation.add_message(f"Message {i}") print("Current context:", conversation.get_context()) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

知来者逆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值