文章总结与翻译
一、主要内容
该论文聚焦大型语言模型作为评估者(LLJs)的应用争议,核心观点是当前对LLJs的热潮可能为时尚早,其可靠性和有效性尚未经过充分严谨的验证。
- 核心背景:自然语言生成(NLG)系统的评估长期面临主观性强、成本高的挑战,LLJs因类人性和成本优势被视为传统评估指标的替代方案,相关研究快速涌现,但对其有效性的探索不足。
- 理论框架:基于社会科学中的测量理论,明确有效性(测量结果与目标概念的一致性)和可靠性(结果稳定性)是评估LLJs的关键维度,并参考Jacobs和Wallach的框架,将结构有效性拆解为表面有效性、内容有效性等七个维度。
- 四大核心假设批判:
- 假设1(人类判断的替代者):LLJs与人类判断的相关性验证存在缺陷,人类判断本身在收集过程中存在定义模糊、指令不清等不一致问题,且LLJs的判断收集也存在类似问题。
- 假设2(具备评估能力):LLJs在遵循指令、可解释性、稳健性和专业知识方面存在局限,如易混淆评估维度、解释缺乏真实性、易受偏见和对抗性攻击影响。
- 假设3(可扩展性):LLJs在模型增强等场景中存在数据污染、偏好泄露、基准测试竞争扭曲等问题,且存在“表面对齐”现象,难以真正理解核心评估目标。
- 假设4(成本效益):LLJs的成本优势仅考虑短期财务成本,忽略了对众包工作者的就业冲击、环境消耗以及社会偏见传播等长期非财务成本。

订阅专栏 解锁全文
9132

被折叠的 条评论
为什么被折叠?



