文章主要内容总结
本文聚焦于复杂、多维度的搜索澄清任务标注,探讨大语言模型(LLMs)与人类协作(Human-in-the-Loop, HITL)的有效性,旨在以更少的人力成本获得可靠标注。
- 研究背景:传统信息检索(IR)评估依赖人类标注,成本高、难扩展。LLMs在简单标注任务中表现接近人类,但在主观、细粒度、高风险任务(如搜索澄清)中存在局限性(不一致、校准差、对提示敏感)。
- 研究对象:以搜索澄清任务(生成和评估用于模糊查询的澄清问题)为测试场景,使用MIMICS-Duo数据集,评估4种LLMs(GPT-4o、Claude 3、Cohere Command R、Mistral 7B)在零样本(ZSS)和少样本(FSS)设置下的表现。
- 核心发现:即使最先进的LLMs在细粒度、主观任务中也难以达到人类水平,且对提示和超参数(如温度)敏感。
- 提出方法:设计HITL工作流程,通过置信度阈值和模型间分歧识别不确定案例,选择性引入人类审核。结果显示,该方法可减少24-45%的人力,同时保持标注质量。
- 主要结论:HITL框架通过整合LLM预测与人类监督,平衡了标注质量与效率,为复杂IR任务的自动化标注提供了可行路径。
创新点
- 首次实证:首次系统评估LLMs在搜索澄清任务自动标注中的能力与局限,填补了复杂、多维度标注任务中LLMs

订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



