TOWARD A UNIFIED FRAMEWORK FOR DATA-EFFICIENT EVALUATION OF LARGE LANGUAGE MODELS

该文章提出LEGO-IRT框架,旨在解决大型语言模型(LLMs)评估中计算成本高、现有IRT方法局限大的问题,通过创新设计实现数据高效且灵活的评估,同时通过大量实验验证了其有效性。

一、文章主要内容

  1. 研究背景
    • 现有LLMs评估依赖全面基准测试,但需处理数十万评估项,导致计算(数千GPU小时)和财务成本极高,尤其对推理型模型成本更高。
    • 虽有基于项目反应理论(IRT)的方法可分离模型能力与题目难度以实现数据高效评估,但存在局限:仅支持二元正确性指标,无法处理生成任务的连续分数;仅针对单一基准,忽略指标或基准间的关联等结构知识。
  2. 核心框架:LEGO-IRT
    • 多指标支持:创新设计原生支持二元和连续评估指标,无需对连续指标离散化,如处理生成任务中BLEU、ROUGE等连续分数。
    • 结构化知识融入:采用因子化架构,将模型能力估计分解为通用组件和特定结构(如特定指标或特定基准)组件,以利用指标间、基准间的关联知识。
  3. 实验验证
    • 实验涵盖70个LLMs和5个基准,结果显示LEGO-IRT仅用3%的评估项即可实现稳定的能力估计。
    • 融入结构知识可将估计误差降低高达10%,且其估计的潜在能力与人类偏好更一致。
    • 在准确性、稳定性和数据效率上均优于均值聚合、其他IRT方法等基
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值