该文章提出了全新的编程基准测试集LiveOIBench,用于评估大型语言模型在信息学奥林匹克竞赛级编程任务中的能力,同时通过对32个主流模型的测试,揭示了当前LLM在复杂编程任务上的表现与局限。
一、文章主要内容
- 现有编程基准的不足
- 缺乏极具挑战性的题目,无法有效测试LLM的高阶编程能力。
- 测试用例覆盖不全面,存在高假阳性率,导致模型性能评估不准确。
- 依赖在线平台API,限制了评估的可访问性与可复现性。
- 评估指标单一(如仅用通过率),无法细致洞察模型能力差异。
- LiveOIBench基准的核心构成
- 题目来源:源自2023-2025年全球14个信息学奥林匹克赛事的72场官方比赛,共403道专家筛选的题目。
- 测试用例:每道题平均配备60个专家设计的测试用例,含私有测试用例,降低假阳性率。
- 评估体系:支持离线评估,无需依赖外部API,同时提供细粒度评分标准(如子任务评分)和人类参赛者排名数据,便于模型与人类顶尖选手直接对比。
- 模型测试结果
- 闭源模型表现:GPT-5表现最佳,达到人类第81.76百分位,但仍低于人类顶尖选手(通常在90百分位以上);Gemini-2.5-Pro紧随其后,处于71.80百分位。
- 开源模型表现:GPT-OSS-120B为开源模型中最优,达60百分
订阅专栏 解锁全文
1648

被折叠的 条评论
为什么被折叠?



