首个记忆幻觉评估框架 HaluMem 正式发布！

最新推荐文章于 2025-11-30 14:17:11 发布

原创最新推荐文章于 2025-11-30 14:17:11 发布 · 595 阅读

·

13

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

在和 AI 长期相处的过程中，你可能发现它偶尔会“记错人”：
昨天刚告诉它我喜欢黑咖，今天它却推荐了焦糖拿铁；
上周说好要去成都旅游，它却在记忆里写成了长沙。

图记忆系统中操作级幻觉的示例

这些看似小小的“记忆偏差”，其实正是当下 AI 系统中最隐蔽、最难察觉的风险之一——记忆幻觉（Memory Hallucination），其中包括：

记忆提取幻觉：从对话中抽取关键信息时，可能错误或虚构事实；
记忆更新幻觉：修改旧信息时，可能错误或遗漏更新；
记忆问答幻觉：引用记忆回答问题时，可能调用了错误记忆或编造细节。

而幻觉，往往正是在这些环节中被“生成”或“扩散”的。

这些幻觉一旦发生，会在系统内部累积、传递、放大，最终影响AI的回答。于是我们看到这样的现象：“AI越聊越熟，却越说越不对。”

HaluMem：首个面向记忆系统的幻觉评估框架正式发布！

记忆张量（MemTensor）联合中国电信研究院正式发布业内首个针对 AI 记忆系统的幻觉评估框架 —— HaluMem。

首日发布已登顶 Hugging Face Papers Daily & Weekly TOP 1。

📄 论文已上线 Hugging Face Papers：https://huggingface.co/papers/2511.03506

我们希望通过 HaluMem 助力：

每一个智能体都能知道自己，是“在哪一步开始记错的”。

三阶段幻觉拆解机制

不同于以往只能评估整体表现的黑箱方法，HaluMem 首创了，并将记忆过程拆分为三个关键阶段：

记忆抽取（Extraction）：AI 是否正确抓取关键信息？
记忆更新（Update）：在修改旧信息时是否出现误写或偏差？
记忆问答（Usage）：AI 回答问题时是否调用了正确记忆？

这种“操作级”评估方式，能够精准定位幻觉来源，让开发者真正理解——模型是在哪一步开始出现问题。

极限长上下文测试：还原真实交互

HaluMem 构建了覆盖 1M tokens 的超长上下文数据集，系统性地揭示主流记忆系统（Mem0、Memobase、Supermemory 、Zep等）在不同阶段的幻觉模式与传播规律，模拟真实人机交互场景。

数据集包含多维人格、事件更新、关系演化等复杂场景，用于系统揭示幻觉的传播规律。

实验结果：主流记忆框架的幻觉表现

HaluMem 构建了覆盖 1M tokens 的长上下文数据集，并对主流记忆系统（Mem0、Zep、Memobase、SuperMemory 等）进行了系统评估。

以下为首轮实验结果（幻觉率越低越好）：

从结果可以看到：

记忆抽取与更新阶段 是幻觉的主要集中点，占总误差约 70%；
MemOS 依托结构化记忆与偏好记忆机制，幻觉率降低超过 40%；
具备上下文调度与异步记忆机制的系统，在问答阶段表现显著更稳。

换句话说，HaluMem 不只是评估框架，更是一面镜子，照出了每个记忆系统在「哪里容易出错、怎么改进」的真相。

框架特性亮点

为什么这很重要？

过去，我们关注模型“说得对不对”；
现在，我们要关注模型“记得对不对”。

HaluMem 的出现，让 AI 记忆系统首次具备了“自检”与“溯源”能力。

它可以帮助：

医疗类智能体——减少记忆冲突，提升诊断一致性；
情感陪伴类 Agent——防止“人格漂移”；
企业知识助理——保持知识更新与问答逻辑统一。

这意味着，AI 不再只是“会回答的问题机器”，而且能在长时间学习中持续修正自己的记忆与行为逻辑。

开放数据、开放未来

HaluMem 的评测集与代码现已全面开源，开发者可在 Hugging Face 或 GitHub 上快速复现与验证实验。

🔗 论文地址：https://huggingface.co/papers/2511.03506

📖 GitHub 地址：github.com/MemTensor/HaluMem

📣 如果你也关注记忆系统与幻觉问题，

欢迎到 Hugging Face 为 HaluMem 投票支持，让更多开发者加入「让 AI 记得更准」的行动。

⬇️ 点击投票 | Vote for HaluMem on Hugging Face：

https://huggingface.co/papers/2511.03506

关于 MemOS

MemOS 为 AGI 构建统一的记忆管理平台，让智能系统如大脑般拥有灵活、可迁移、可共享的长期记忆和即时记忆。

作为记忆张量首次提出“记忆调度”架构的 AI 记忆操作系统，我们希望通过 MemOS 全面重构模型记忆资源的生命周期管理，为智能系统提供高效且灵活的记忆管理能力。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。