该文章提出LEGO-IRT框架,旨在解决大型语言模型(LLMs)评估中计算成本高、现有IRT方法局限大的问题,通过创新设计实现数据高效且灵活的评估,同时通过大量实验验证了其有效性。
一、文章主要内容
- 研究背景
- 现有LLMs评估依赖全面基准测试,但需处理数十万评估项,导致计算(数千GPU小时)和财务成本极高,尤其对推理型模型成本更高。
- 虽有基于项目反应理论(IRT)的方法可分离模型能力与题目难度以实现数据高效评估,但存在局限:仅支持二元正确性指标,无法处理生成任务的连续分数;仅针对单一基准,忽略指标或基准间的关联等结构知识。
- 核心框架:LEGO-IRT
- 多指标支持:创新设计原生支持二元和连续评估指标,无需对连续指标离散化,如处理生成任务中BLEU、ROUGE等连续分数。
- 结构化知识融入:采用因子化架构,将模型能力估计分解为通用组件和特定结构(如特定指标或特定基准)组件,以利用指标间、基准间的关联知识。
- 实验验证
- 实验涵盖70个LLMs和5个基准,结果显示LEGO-IRT仅用3%的评估项即可实现稳定的能力估计。
- 融入结构知识可将估计误差降低高达10%,且其估计的潜在能力与人类偏好更一致。
- 在准确性、稳定性和数据效率上均优于均值聚合、其他IRT方法等基

订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



