总目录 大模型相关研究:https://blog.youkuaiyun.com/WhiffeYF/article/details/142132328
https://arxiv.org/pdf/2406.07791
https://www.doubao.com/chat/21705694266428162

速览
这篇论文主要研究了“大语言模型当裁判”(LLM-as-a-Judge)时存在的“位置偏见”问题,简单来说就是模型可能会因为答案在提示词里的位置(比如第一个还是第二个)而偏袒某个答案,而非真的看内容质量。下面用通俗的话拆解核心内容:
一、为啥要研究这个?
现在很多场景会用大语言模型(比如GPT、Claude)代替人来评判其他模型的回答好不好(比如比两个AI谁答数学题更准),因为人评判成本高、效率低。但大家发现,这些“AI裁判”可能有偏见——比如不管内容咋样,总觉得第一个出现的答案更好,或者总偏爱
订阅专栏 解锁全文
2423

被折叠的 条评论
为什么被折叠?



