When LLMs Disagree: Diagnosing Relevance Filtering Bias and Retrieval Divergence in SDG Search

最新推荐文章于 2025-11-25 17:43:23 发布

UnknownBody

最新推荐文章于 2025-11-25 17:43:23 发布

阅读量189

点赞数 3

CC 4.0 BY-SA版权

分类专栏： LLM Daily 文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/149329964

LLM Daily 专栏收录该内容

1691 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

文章主要内容总结

本文聚焦大型语言模型（LLMs）在可持续发展目标（SDGs）相关文献检索中的相关性标注分歧问题，以开源模型LLaMA和Qwen为研究对象，针对SDG 1（消除贫困）、3（良好健康与福祉）、7（清洁能源）的学术摘要展开分析。

研究核心围绕四个问题：1）不同LLM的过滤决策分歧频率及受影响文档类型；2）分歧是否具有系统性，能否通过词汇、语义或主题特征解释；3）分歧如何影响下游检索排序；4）一个模型的过滤行为能否预测另一个模型的行为（即分歧是否可学习）。

通过词汇分析（TF-IDF、KL散度）、检索排序模拟（质心检索、代表性查询）及分类预测（逻辑回归），研究发现：

两模型在15%-20%的案例中存在分歧，且分歧并非随机，而是具有一致的词汇模式（如LLaMA更关注SDG 3的临床术语，Qwen更关注分子术语）；
分歧导致下游检索排序显著差异，同一评分函数下两模型的top-ranked结果不同；
简单分类器可区分两模型的标注结果（AUC均>0.74），表明分歧具有系统性和可预测性。

研究结论指出，LLM过滤偏差会结构性地改变SDG检索结果，建议将模型分歧作为检索评估的诊断信号，尤其在政策相关领域。

创新点

将分歧视为分析对象而非噪音：不同于以往将模型分歧视为需消除的干扰，本文将其作为诊断信号，探究LLM特有的过滤偏好及对检索的影响。
揭示分歧的系统性与结构化特征：通过词汇和语义分析，证明分歧源于模型对特定术语

了解本专栏

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。