在人工智能的快速发展进程中,大型语言模型(LLMs)已然成为备受瞩目的焦点。以ChatGPT、Claude、Gemini等为代表的大语言模型,借助数千亿参数,通过对海量文本、图片、音频和视频数据开展自监督训练,逐步掌握了语言、知识以及世界的各类规律。然而,一个长期以来困扰研究者与大众的核心问题始终悬而未决:在LLMs的训练数据里,究竟有多少被用于构建概念的泛化表示,又有多少是被逐字记忆的?
近期,一项由Meta、Google DeepMind、康奈尔大学和NVIDIA的研究人员共同完成的新研究,为这一问题带来了突破性的见解。该研究发现,GPT风格的模型存在固定的记忆容量,大约为每个参数3.6比特。这一发现犹如一颗投入平静湖面的石子,在人工智能领域激起层层涟漪,它不仅极大地刷新了我们对AI大模型本质的认知,更为AI大模型版权是否合规、隐私保护等现实问题提供了关键的科学依据。

一、记忆与泛化:难以界定的模糊地带
长久以来,在评估模型的学习能力时,记忆与泛化之间的界限始终模糊不清。传统观点认为,记忆是模型对训练数据中特定实例的精确存储,而泛化则是模型将从训练数据中学习到的模式应用于新数据的能力。然而,在实际的模型训练与应用过程中,二者的区分并非如此简单明了。
对于模型所输出的结果,我们往往难以判断它究竟是基于对训练数据的记忆,还是真正理解了数据背后的潜在模式并实现了泛化。例如,当模型正确回答了一个问题时,我们无法立刻确定它是恰好记住了训练数据中的答案,还是通过学习到的语言结构和知识进行推理得出的结论。这种不确定性严重阻碍了我们对模型性能的准确评估,也为模型的优化与改进带来了诸多挑战。
为了更加准确地区分记忆与泛化,研究团队引入了一种基于信息论的原则性方法。他们通过提出一个基于Kolmogorov复杂度的正式定义,致力于将“无意记忆”(即特定于训练实例的信息)与“泛化”(关于底层

最低0.47元/天 解锁文章
1473

被折叠的 条评论
为什么被折叠?



