这篇文章对大语言模型(LLMs)的认知多样性与知识崩塌问题展开了首次广泛实证研究,不仅提出了新的测量方法,还揭示了模型大小、生成方式及文化背景对认知多样性的关键影响。
一、文章主要内容总结
文章核心围绕“LLMs是否存在知识崩塌”展开,通过构建新的认知多样性测量方法,对27个LLMs(涵盖4个模型家族、2023-2025年发布版本)在155个主题(含12个国家相关内容)、200种真实用户提示下的表现进行研究,关键结论如下:
- 认知多样性整体偏低但有改善趋势:2023年后,Llama、Gemma、OpenAI三个模型家族的认知多样性有所提升(如2025年3月后的Gemma 3、GPT-5),但所有模型的多样性仍显著低于基础网页搜索(如Google前20条结果)。
- 模型大小与生成方式的影响:模型大小与认知多样性呈负相关,小型模型(≤8B参数)比大型模型(≥27B参数)多样性更高;检索增强生成(RAG)能显著提升多样性,但传统指令微调(IFT)效果较差。
- 文化背景的差异化影响:IFT模式下,不同国家主题的认知多样性差异不大;但RAG对各国的提升效果不均,美国、印度等国家因RAG源更丰富,多样性提升更明显,而部分国家因源数据不足提升有限。
- 知识表征的语言偏差:与维基百科对比,LLMs生成的国家特定内容更偏向英语知识,而非当地语言知识,存在认知表征缺口,可能导致小众知识被忽视。
订阅专栏 解锁全文
1497

被折叠的 条评论
为什么被折叠?



