Epistemic Diversity and Knowledge Collapse in Large Language Models

最新推荐文章于 2026-01-10 10:03:34 发布

原创最新推荐文章于 2026-01-10 10:03:34 发布 · 119 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#语言模型 #人工智能 #自然语言处理

LLM Daily 专栏收录该内容

1843 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

这篇文章对大语言模型（LLMs）的认知多样性与知识崩塌问题展开了首次广泛实证研究，不仅提出了新的测量方法，还揭示了模型大小、生成方式及文化背景对认知多样性的关键影响。

一、文章主要内容总结

文章核心围绕“LLMs是否存在知识崩塌”展开，通过构建新的认知多样性测量方法，对27个LLMs（涵盖4个模型家族、2023-2025年发布版本）在155个主题（含12个国家相关内容）、200种真实用户提示下的表现进行研究，关键结论如下：

认知多样性整体偏低但有改善趋势：2023年后，Llama、Gemma、OpenAI三个模型家族的认知多样性有所提升（如2025年3月后的Gemma 3、GPT-5），但所有模型的多样性仍显著低于基础网页搜索（如Google前20条结果）。
模型大小与生成方式的影响：模型大小与认知多样性呈负相关，小型模型（≤8B参数）比大型模型（≥27B参数）多样性更高；检索增强生成（RAG）能显著提升多样性，但传统指令微调（IFT）效果较差。
文化背景的差异化影响：IFT模式下，不同国家主题的认知多样性差异不大；但RAG对各国的提升效果不均，美国、印度等国家因RAG源更丰富，多样性提升更明显，而部分国家因源数据不足提升有限。
知识表征的语言偏差：与维基百科对比，LLMs生成的国家特定内容更偏向英语知识，而非当地语言知识，存在认知表征缺口，可能导致小众知识被忽视。

二、文章创新点

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。