这项由腾讯混元团队进行的开创性研究发表于2025年7月,论文编号为arXiv:2507.04952v1,有兴趣深入了解的读者可以通过https://artifactsbenchmark.github.io/访问完整论文和开源工具。
当下的人工智能正在经历一场巨大变革。以前,我们让AI写代码主要是为了解决数学题或者处理数据,就像让一个聪明的计算器帮我们算账。但现在,AI开始尝试做更复杂的事情——创造出那些我们能够看到、点击、互动的程序界面,比如网页、游戏、数据图表等等。这就好比从让AI写说明书,进步到让AI直接制作一个完整的、可以实际操作的产品。
然而,这里出现了一个严重问题。传统的AI代码评测方法就像只看菜谱是否正确,却从不品尝做出来的菜是否好吃。现有的评测标准主要关注代码是否能跑通、逻辑是否正确,但完全忽略了最终呈现出来的界面是否美观、是否好用、用户体验如何。这就导致了一个尴尬局面:AI可能写出了技术上完美的代码,但做出来的网页却丑得不忍直视,或者按钮根本点不动。
腾讯混元团队意识到了这个关键问题,他们发现整个AI代码生成领域缺少一套能够全面评估"视觉交互效果"的标准。就像评价一家餐厅,你不能只看厨师的刀工技术,还要看端上桌的菜品色香味如何,用餐环境是否舒适。同样道理,评价AI生成的代码,不能只看算法逻辑,还要看最终的视觉效果和用户体验。
于是,他们开发出了ArtifactsBench——这是全世界第一个专门用来评测AI生成"视觉交互代码"质量的综合性基准测试系统。这套系统的革命性在于,它不仅会检查AI写的代码是否正确,更重要的是,它会实际运行这些代码,截取运行时的画面,然后像人类用户一样去评判这些界面是否美观、是否好用。
**一、突破性的评测理念:从纸上谈兵到实战检验**
传统的AI代码评测就像让学生只在纸上画设计图,然后根据图纸的精美程度打分,却从不让他们真正动手搭建实物。ArtifactsBench的创新之处在于,它会让AI真正"动手做事"。
具体来说,当AI提交了一段代码后,ArtifactsBench不会简单地检查语法是否正确,而是会在一个安全的虚拟环境中实际运行这段代码。就像一个严格的产品经理,它会在不同的时间点对运行结果进行"截屏",记录下界面在各个状态下的表现。比如,如果这是一个游戏界面,它会记录游戏刚启动时的样子、玩家点击按钮后的变化、以及游戏进行过程中的动态效果。
更进一步,这套系统还引入了多模态大语言模型作为"AI评委"。这个AI评委就像一个既懂技术又有审美的专业评审员,它能够同时理解代码逻辑和视觉效果。它会综合分析代码质量、界面美观度、交互流畅性等多个维度,给出详细的评分和改进建议。
这种评测方式的革命性意义在于,它首次实现了对AI代码生成能力的"端到端"评估。不再是单纯的技术测试,而是真正从用户角度出发的综合评判。就好比不再只看演员的台词功底,而是要看整部电影的最终呈现效果。
**二、海量真实场景测试:覆盖生活方方面面的1825个挑战**
为了构建这套评测系统,腾讯混元团队做了一件极其庞大的工程——他们收集并精心设计了1825个不同类型的测试任务。这些任务就像一本超大的"AI作业集",涵盖了现实生活中几乎所有需要用到视觉界面的场景。
这1825个任务被巧妙地分为九大类别,每一类都代表着不同的应用领域。游戏开发类别包括了从简单的拼图游戏到复杂的策略游戏,就像从儿童积木到专业建筑模型的区别。网页应用类别涵盖了各种常见的网站功能,比如在线购物、社交平台、教育网站等,这些都是我们日常上网时经常接触的场景。
管理系统类别则涉及各种办公和管理软件界面,比如文件管理器、数据库管理工具等,这些是企业和机构日常运营必不可少的工具。多媒体编辑类别包含了图片处理、音频编辑、视频制作等创意工作相关的界面设计。数据科学类别专注于各种数据可视化界面,比如图表制作、统计分析界面等。
模拟仿真类别涉及各种物理模拟和数学建模的可视化界面,这类应用在科研和工程领域应用广泛。SVG图形生成类别专门测试AI生成矢量图形的能力,这在图标设计、插画制作等领域很重要。快速工具类别包含各种实用小工具的界面设计,比如计算器、单位转换器等日常工具。
更

最低0.47元/天 解锁文章
3887

被折叠的 条评论
为什么被折叠?



