General Evaluation
文章平均质量分 88
聚焦AI领域常用的Benchmark
依然易冷
专注LLM+Code,有空就更,欢迎关注,Push我更新。
Bytedancer一枚,从事大模型代码算法行业,可一起交流经验,全平台同名。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【复杂指令遵循 Benchmark】论文分享:CodeIF-Bench
论文名称:CodeIF-Bench: Evaluating Instruction-Following Capabilities of Large Language Models in Interactive Code Generation;机构:北航 + 华为云原创 2025-06-05 12:49:09 · 1048 阅读 · 0 评论 -
【复杂指令遵循 Benchmark】论文分享:CodeIF
论文名称:CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation;机构:北航 + 清华 + 新加坡国立大学原创 2025-06-03 09:03:58 · 1303 阅读 · 0 评论 -
【Code Agent Benchmark】论文分享:Web Bench
论文名称:Web-Bench: A LLM Code Benchmark Based on Web Standards and Frameworks;机构:字节跳动原创 2025-05-27 09:13:12 · 1346 阅读 · 0 评论 -
【Code Agent Benchmark】论文分享:TAU-Bench
论文名称:τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains;机构:Sierra原创 2025-05-24 21:49:25 · 2226 阅读 · 0 评论 -
【General Agent Benchmark】论文分享:WorfBench
论文名称:Benchmarking Agentic Workflow Generation;机构:浙大 + 通义原创 2025-05-23 13:38:25 · 650 阅读 · 0 评论 -
【Code Agent Benchmark】论文分享:SWE-bench
论文名称:SWE-bench: Can Language Models Resolve Real-World GitHub Issues?;机构:普林斯顿大学 + OpenAI原创 2025-05-22 10:00:30 · 1901 阅读 · 0 评论 -
【General Agent Benchmark】论文分享:LLF-Bench
论文名称:LLF-Bench: Benchmark for Interactive Learning from Language Feedback;机构:微软原创 2025-05-19 14:39:59 · 1115 阅读 · 0 评论 -
【General Agent Benchmark】论文分享:AgentBench
论文名称:AgentBench: Evaluating LLMs as Agents;机构:清华 ChatGLM 团队原创 2025-05-17 09:20:47 · 1546 阅读 · 0 评论 -
【General Agent Benchmark】论文分享:GAIA
论文名称:GAIA: a benchmark for General AI Assistants;机构:Meta + Huggingface + AutoGPT原创 2025-05-10 06:48:59 · 2122 阅读 · 0 评论
分享