[论文阅读] AI + 测试 | 测试覆盖率评估大突破!GPT-4o Mini凭啥碾压GPT-5?LAJ框架让LLM当“裁判”成本降78%
新加坡管理大学与万事达卡团队提出LLM-as-a-Judge(LAJ)框架,通过结构化评估解决软件测试覆盖率评估难题。研究发现GPT-4o Mini以6.07的评估误差和96.6%首次成功率成为最优选择,成本仅为GPT-5的1/78。论文创新性提出ECR@1等生产指标,并揭示不同模型家族对推理努力的差异化响应:GPT-5受益于高推理,而开源模型性能反而下降。研究开源了包含100组标注数据的评估框架,为行业提供可直接落地的解决方案,填补了传统代码覆盖率工具在语义分析方面的空白。




