大模型学习忘记不想要的东西

最新推荐文章于 2025-11-24 11:43:51 发布

原创

最新推荐文章于 2025-11-24 11:43:51 发布 · 840 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #人工智能 #AIGC

虽然大型语言模型越来越擅长从大量数据中学习，但一种相反的新技术让科技公司热议：机器反学习。

这种相对较新的方法教会 LLMs 忘记或“忘却”敏感、不受信任或受版权保护的数据。它比从头开始重新训练模型更快，并且可以追溯删除特定的不需要的数据或行为。

因此，IBM、Google 和 Microsoft 等科技巨头正在努力为机器取消学习做好准备，这并不奇怪。然而，对忘却技术的日益关注也凸显了这种技术的一些问题：忘记太多的模型，以及缺乏全行业工具来评估忘却的有效性。

从学习到忘却

在 TB 级数据上进行训练，LLMs“学习”做出决策和预测，而无需明确编程。随着算法模仿人类的学习方式，逐渐提高它们生成的内容的准确性，这个被称为

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

大模型实战

关注关注

23
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

web-dev-notes:我学会的东西，我不想立即忘记

04-01

"web-dev-notes:我学会的东西，我不想立即忘记"这个标题暗示了一个开发者积累知识的习惯，他们将学习到的Web开发要点记录下来，以便日后查阅和巩固。下面，我们将深入探讨Web开发中的关键知识点，这些内容通常涵盖...

『大模型笔记』为什么人工智能是不可预测的！

AI新视界

07-08

680

为什么人工智能是不可预测的！

参与评论您还未登录，请先登录后发表或查看评论

大模型微调中的灾难性遗忘：公式解析与应对策略

神经美学_茂森的博客

07-25

2128

在大模型微调过程中，灾难性遗忘是一个常见的问题。它指的是模型在适应新任务或新数据时，往往会忘记之前学到的知识，导致在旧任务上的性能大幅下降。这种现象对于希望模型能够持续学习和适应新情境的场景来说是一个巨大的挑战。

【大模型上下文长度扩展】MemGPT：解决遗忘 + 永久记忆 + 无限上下文

Debroon

02-07

7942

MemGPT随后用一条更新后的信息回应用户，不仅纠正了之前的错误，还询问用户是否有喜欢的浪漫喜剧电影，这表明MemGPT能够根据新的输入动态调整它的对话策略。在用户的对话框旁边，有一段描述，解释说用户正在回忆过去的对话，并且MemGPT将搜索其“回忆存储”以找到艺术家的名字。通过这样的管理，MemGPT保持了对话的连贯性，并能够在未来的交互中利用这些信息，提供更个性化和相关的响应。通过这样的动态记忆更新，MemGPT能够维护对话的一致性，即使在长期的交互中也能保持个性化和相关性。

大模型的记忆困境：平衡持续学习与灾难性遗忘

2401_85325557的博客

11-11

1324

在神经网络的上下文中，Fisher信息矩阵 F 是一个平方矩阵，其大小等于模型参数的数量。对于参数 θ，Fisher矩阵定义为：Fisher 信息矩阵的定义：解释：F 是 Fisher 信息矩阵θ 表示模型参数p(x|θ) 是给定模型参数 θ 时数据 x 的似然∇_θ 表示对参数 θ 的梯度E 表示对数据分布的期望因为这个行业不同于其他行业，知识体系实在是过于庞大，知识更新也非常快。

大模型知识遗忘问题

yuanl15的博客

11-29

521

用nuscMQA数据集，采用LoRa微调Qwen2-VL，发现问什么问题，Qwen2-VL都会按照nuscMQA的Answer模板回答问题，丧失了原来的通用能力。

大模型微调过程中如何避免灾难性遗忘？【大模型行业应用落地系列】

xxue345678的博客

06-28

3533

灾难性遗忘现象是在连续学习多个任务的过程中，学习新知识的过程会迅速破坏之前获得的信息，而导致模型性能在旧任务中急剧下降。由于大模型的研究应用逐渐往微调等增量学习的方向深入，灾难性遗忘的问题开始被人们所认识和关注，在业界进行了不少研究和实验，可以总结出一些经验。暂时来看，经过实验验证的方法有如下几个：1.低秩适应LoRA方法是一种高效的微调方法，其原理是保留大模型的原始权重不变，从新数据中学习的知识只更新到小得多的附加权重矩阵中。只是目前来看也常常出现灾难性遗忘的现象。

大模型应用的基石：深入解析上下文学习的技术体系与行业趋势

weixin_42258782的博客

10-13

965

AI推理时代的数据存储挑战与上下文学习技术演进随着AI应用从训练转向推理，多模态生成内容（如图片、视频）导致数据需求呈指数级增长，存储需求可能提升数十至数百倍。大模型规模扩展受限于HBM和GPU资源，使上下文学习（ICL）成为下游任务适配的关键技术。ICL作为推理阶段的元学习手段，通过动态构建输入上下文来引导模型行为，其技术体系涵盖输入优化、推理增强和评估校准三层架构。行业趋势显示，从模型微调转向上下文自适应的范式变革正在发生，递归推理、自主上下文工程等创新技术正推动小模型实现高性能，同时评估标准向真实噪

ACL 2025 | 大模型遗忘之后患上失语症？通过学习新知识实现旧知识遗忘

Paper weekly

05-22

1367

徐浩铭（浙江大学）、赵宁远（厦门大学）、杨理明（清华大学）、赵森栋（哈尔滨工业大学）、邓淑敏（新加坡国立大学）、王梦如（浙江大学）、Bryan Hooi（新加坡国立大学）、Nay Oo（新加坡国立大学）、陈华钧（浙江大学）、张宁豫（浙江大学）概率跷跷板效应：基于反向优化的方法（如梯度上升 GA 和负偏好优化 NPO）在抑制目标词元概率的同时，未能有效指导模型进行合理的知识重构，反而可能导致词汇塌陷（流畅性降低）和上下文不连贯（相关性减弱）的问题。总有一些你不认识的人，知道你想知道的东西。

大模型增量预训练新技巧：解决灾难性遗忘

2201_75499313的博客

02-03

3463

该方法主要通过增加恒定块扩展模型层数，使模型在增量训练过程中仅训练新增层、冻结原始层，保持模型原有能力，防止模型出现灾难性遗忘现象。但有两点存疑：目前来说mistral要好于llama，为啥不用mistral进行实验不用恒定块，性能会差多少。

智能行业精调解决大模型遗忘和幻觉问题

bjspzc的博客

06-18

1845

大模型的遗忘问题，也被称为灾难性遗忘，主要指的是神经网络在学习新任务的过程中，会忘记之前学习过的任务。在大语言模型的应用过程中，微调和对齐是至关重要的步骤，它们确保模型不仅能理解和生成人类语言，还能在执行任务时表现出与人类价值观相符的行为。

人工智能安全——大语言模型遗忘学习（LLM unlearning）与多目标优化算法

jazzbin的博客

01-04

2042

本文介绍了一篇ICASSP-2025的关于多目标优化大语言模型遗忘学习的论文。文章提出了一种全新的多目标优化算法：利用对偶的向量运算来快速求解多目标优化问题。提升了大语言模型的安全性。

大模型在连续学习中真的遗忘了吗？重新审视基于预训练语言模型的增量学习

m0_63171455的博客

11-24

1098

增量学习（IL）一直是计算机视觉和自然语言处理（NLP）领域长期存在的问题。近年来，随着大语言模型（Large Language Model, LLM）在各种 NLP 下游任务中取得了显著进展，将 LLMs 作为骨干网络在 NLP 领域的增量学习研究中已成为一种常见做法。大多数研究假设灾难性遗忘是实现优越增量学习性能的最大障碍，并提出了各种技术来克服这一问题。然而，我们发现这一假设存在问题。

模型会忘了你是谁吗？两篇Machine Unlearning顶会论文告诉你什么是模型遗忘

Paper weekly

10-09

3613

©作者 |顾洲洪单位 |复旦大学博士生研究方向 |知识图谱、知识工程任务定义模型遗忘是针对于特定的数据而言的，让模型遗忘掉某个数据之后模型的表现能力，应该等同于这个数据没有参与模型训练时模型的表现能力。Machine Unlearning 这个词其实最火的应该是顶会 S&P-42nd IEEE Symposium of Security and Privacy 上的同名工作：Mach...

ICLR2019 | 模型训练会发生了大量的、反复的样本遗忘现象，如何解决？

zenRRan的博客

01-27

1767

每天给你送来NLP技术干货！来自：SimpleAI标题：An Empirical Study of Example Forgetting during Deep Neural Networ...

基于学习的人工智能（1）为什么学习？

最新发布

致力于大数据+AI 的应用创新。

11-24

253

学习是人类最重要的认知活动之一，贯穿我们的一生。出生后，我们无时无刻不在学习：从父母那里学说话，自己尝试走路，从小伙伴那里学会折纸飞机，从老师那里学到语文、数学等各种知识。研究人员始终将光源和风扇放在同一侧，经由学习，玉米幼苗逐渐学会了“有风的地方就会有光”的规律。之后，研究人员移去光源，并改变风扇方向，玉米幼苗依然按照所学知识，向风扇方向生长。1959 年，美国计算机学家亚瑟·塞缪尔设计了一款可以自我学习的跳棋程序，并将这一新方法称为“机器学习”，从而开启了机器自我学习的道路。

学习笔记——基础hash思想及其简单C++实现

2502_91790308的博客

11-23

865

哈希表是一种查找时间复杂度为O(1)的高效数据结构，通过哈希函数将数据映射到固定位置实现快速查询。本文介绍了哈希表的核心概念，包括哈希函数（重点讲解除留余数法）、负载因子和哈希冲突。针对冲突问题，详细阐述了开放定址法（含线性探测、二次探测）和链地址法两种解决方案。文章还通过计数排序示例说明哈希思想，并探讨了实现中的关键问题，如扩容策略、处理非整数类型键值的方法等。哈希表性能优异但需合理设计，否则可能退化为O(n)复杂度。

人工智能在教育领域的应用：开启个性化学习新篇章

2501_94058529的博客

11-21

1134

传统的教学方式开始逐渐无法满足个体化学习的需求，而AI技术则为教育提供了新的解决方案，帮助教师和学生实现更加高效、个性化的教学体验。在传统的课堂教学中，教师通常采用一种“标准化”的教学方法，尽管可以满足大多数学生的需求，但却忽视了学生的个性化差异。每个学生的学习进度、兴趣爱好、认知水平和学习方式各不相同，而人工智能技术能够通过对学生数据的分析，为每个学生量身定制个性化的学习路径和内容。AI在其中的作用是，通过智能算法分析学生的学习行为，实时调整学习内容和情境，确保学习过程的高效性和互动性。