When LLMs Disagree: Diagnosing Relevance Filtering Bias and Retrieval Divergence in SDG Search

文章主要内容总结

本文聚焦大型语言模型(LLMs)在可持续发展目标(SDGs)相关文献检索中的相关性标注分歧问题,以开源模型LLaMA和Qwen为研究对象,针对SDG 1(消除贫困)、3(良好健康与福祉)、7(清洁能源)的学术摘要展开分析。

研究核心围绕四个问题:1)不同LLM的过滤决策分歧频率及受影响文档类型;2)分歧是否具有系统性,能否通过词汇、语义或主题特征解释;3)分歧如何影响下游检索排序;4)一个模型的过滤行为能否预测另一个模型的行为(即分歧是否可学习)。

通过词汇分析(TF-IDF、KL散度)、检索排序模拟(质心检索、代表性查询)及分类预测(逻辑回归),研究发现:

  • 两模型在15%-20%的案例中存在分歧,且分歧并非随机,而是具有一致的词汇模式(如LLaMA更关注SDG 3的临床术语,Qwen更关注分子术语);
  • 分歧导致下游检索排序显著差异,同一评分函数下两模型的top-ranked结果不同;
  • 简单分类器可区分两模型的标注结果(AUC均>0.74),表明分歧具有系统性和可预测性。

研究结论指出,LLM过滤偏差会结构性地改变SDG检索结果,建议将模型分歧作为检索评估的诊断信号,尤其在政策相关领域。

创新点

  1. 将分歧视为分析对象而非噪音:不同于以往将模型分歧视为需消除的干扰,本文将其作为诊断信号,探究LLM特有的过滤偏好及对检索的影响。
  2. 揭示分歧的系统性与结构化特征:通过词汇和语义分析,证明分歧源于模型对特定术语
### 可行性 大语言模型(LLMs)具有强大的自然语言处理能力,能够理解和生成文本,这使得其在肥皂剧自动化测试中具有一定的可行性。LLMs可以对肥皂剧的剧情、台词等文本内容进行分析,检查逻辑一致性、语言表达的准确性等。例如,判断剧情是否存在矛盾、台词是否符合人物性格和情境。同时,结合场景知识,能够更好地模拟观众的观看体验,对肥皂剧在不同情境下的表现进行测试。比如,根据不同的文化背景、社会场景等知识来评估剧情的合理性和吸引力。 ### 挑战 - **内容理解的深度**:肥皂剧包含丰富的情感、文化和社会元素,LLMs可能难以完全理解这些深层次的内容。例如,一些微妙的情感表达、文化隐喻等,可能会导致测试结果不准确。 - **场景知识的更新和准确性**:场景知识是不断变化的,新的社会现象、文化潮流等会不断涌现。如果场景知识不能及时更新,就无法准确反映现实情况,从而影响测试的有效性。 - **缺乏真实的情感体验**:LLMs本身没有真实的情感,难以像人类观众一样对肥皂剧产生情感共鸣。而情感体验是肥皂剧评价的重要方面,这使得LLMs在评估肥皂剧的情感吸引力时存在局限性。 ### 未来发展方向 - **多模态融合**:将文本分析与图像、音频等多种模态结合,更全面地对肥皂剧进行测试。例如,分析演员的表情、动作和声音等,以更准确地评估表演效果和剧情的感染力。 - **强化学习与自适应测试**:通过强化学习的方法,让LLMs在测试过程中不断学习和优化,根据测试结果调整测试策略,实现自适应测试,提高测试的效率和准确性。 - **与人类反馈的结合**:将人类观众的反馈与LLMs的测试结果相结合,让人类的情感和主观判断来补充LLMs的不足,从而得到更全面、准确的测试评价。 ```python # 以下为简单示意代码,模拟LLMs对肥皂剧台词的逻辑检查 def check_dialogue_logic(dialogue): # 这里只是简单示例,实际需要更复杂的自然语言处理模型 if "矛盾表述" in dialogue: return False return True dialogue = "他说他很开心,但又表现得很悲伤,这是矛盾表述" result = check_dialogue_logic(dialogue) print(result) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值