文章总结
主要内容
本文提出了一种量化AI系统能力的新指标——50%任务完成时间跨度(50%-task-completion time horizon),即人类完成AI模型以50%成功率完成的任务所需的平均时间。通过结合三个任务套件(HCAST、RE-Bench和SWAA),研究团队测量了人类专家和前沿AI模型(如Claude 3.7 Sonnet)的表现,发现:
- 当前前沿模型的50%时间跨度约为50分钟。
- 自2019年以来,AI的时间跨度每七个月翻倍,2024年增速可能加快。
- 性能提升主要得益于逻辑推理、工具使用能力和错误适应能力的增强。
- 若趋势持续,未来五年内AI可能完成人类需一个月的软件任务。
创新点
- 新评估指标:首次将AI能力与人类完成同类任务的时间关联,提供直观的跨模型比较。
- 多任务套件结合:整合HCAST(复杂任务)、RE