文章主要内容总结
本文聚焦大型语言模型(LLMs)在可持续发展目标(SDGs)相关文献检索中的相关性标注分歧问题,以开源模型LLaMA和Qwen为研究对象,针对SDG 1(消除贫困)、3(良好健康与福祉)、7(清洁能源)的学术摘要展开分析。
研究核心围绕四个问题:1)不同LLM的过滤决策分歧频率及受影响文档类型;2)分歧是否具有系统性,能否通过词汇、语义或主题特征解释;3)分歧如何影响下游检索排序;4)一个模型的过滤行为能否预测另一个模型的行为(即分歧是否可学习)。
通过词汇分析(TF-IDF、KL散度)、检索排序模拟(质心检索、代表性查询)及分类预测(逻辑回归),研究发现:
- 两模型在15%-20%的案例中存在分歧,且分歧并非随机,而是具有一致的词汇模式(如LLaMA更关注SDG 3的临床术语,Qwen更关注分子术语);
- 分歧导致下游检索排序显著差异,同一评分函数下两模型的top-ranked结果不同;
- 简单分类器可区分两模型的标注结果(AUC均>0.74),表明分歧具有系统性和可预测性。
研究结论指出,LLM过滤偏差会结构性地改变SDG检索结果,建议将模型分歧作为检索评估的诊断信号,尤其在政策相关领域。
创新点
- 将分歧视为分析对象而非噪音:不同于以往将模型分歧视为需消除的干扰,本文将其作为诊断信号,探究LLM特有的过滤偏好及对检索的影响。
- 揭示分歧的系统性与结构化特征:通过词汇和语义分析,证明分歧源于模型对特定术语