
文章核心总结
主要内容
- 提出大语言模型(LMs)存在“人工蜂群思维(Artificial Hivemind)”效应:单一模型输出存在内部重复,不同模型间输出高度同质化,且在开放式任务中表现显著。
- 构建INFINITY-CHAT数据集:包含2.6万条真实世界开放式用户查询,覆盖6大类17个子类查询类型,配套3.125万条人类标注(每条含25个独立标注)。
- 实证分析:70余款开源/闭源模型在开放式任务中,跨模型输出相似度达71%-82%;现有LM、奖励模型及LM评判器难以匹配人类对多元优质响应的偏好。
- 揭示风险:模型同质化可能导致人类思维单一化,呼吁通过训练优化、解码策略改进等方式提升输出多样性。
创新点
- 首个大规模开放式查询数据集(INFINITY-CHAT):涵盖真实用户交互场景,提供查询分类体系与密集人类标注,填补现有基准的局限性。
- 系统定义“人工蜂群思维”效应:量化验证模型内部重复与跨模型同质化,发现即使优化解码策略仍难缓解该问题。
- 首次针对开放式响应的人类偏好研究:通过密集标注揭示人类对优质响应的多元偏好,指出现有模型评估体系的校准缺陷。

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



