在人工智能的快速发展进程中,大型语言模型(LLMs)已然成为备受瞩目的焦点。以ChatGPT、Claude、Gemini等为代表的大语言模型,借助数千亿参数,通过对海量文本、图片、音频和视频数据开展自监督训练,逐步掌握了语言、知识以及世界的各类规律。然而,一个长期以来困扰研究者与大众的核心问题始终悬而未决:在LLMs的训练数据里,究竟有多少被用于构建概念的泛化表示,又有多少是被逐字记忆的?
近期,一项由Meta、Google DeepMind、康奈尔大学和NVIDIA的研究人员共同完成的新研究,为这一问题带来了突破性的见解。该研究发现,GPT风格的模型存在固定的记忆容量,大约为每个参数3.6比特。这一发现犹如一颗投入平静湖面的石子,在人工智能领域激起层层涟漪,它不仅极大地刷新了我们对AI大模型本质的认知,更为AI大模型版权是否合规、隐私保护等现实问题提供了关键的科学依据。
一、记忆与泛化:难以界定的模糊地带
长久以来,在评估模型的学习能力时,记忆与泛化之间的界限始终模糊不清。传统观点认为,记忆是模型对训练数据中特定实例的精确存储,而泛化则是模型将从训练数据中学习到的模式应用于新数据的能力。然而,在实际的模型训练与应用过程中,二者的区分并非如此简单明了。
对于模型所输出的结果,我们往往难以判断它究竟是基于对训练数据的记忆,还是真正理解了数据背后的潜在模式并实现了泛化。例如,当模型正确回答了一个问题时&