A.S.E 2.0 正式发布 | 开放生态 · 动静协同 · 让 AI 编程安全可量化

A.S.E 2.0发布：AI编程安全评测升级

原创于 2025-11-07 17:32:20 发布 · 851 阅读

CC 4.0 BY-SA版权

文章标签：

A.S.E (AI Code Generation Security Evaluation) - 你的 AI 鉴赏官，为你提供大模型安全实践工具，让你一眼就能选出最靠谱的 AI 队友。
https://aicgseceval.tencent.com/home

一、A.S.E：从研究探索到行业认可

A.S.E（AI Code Generation Security Evaluation）作为业内首个面向真实项目场景的 AI 生成代码安全评测基准，自今年 7 月发布1.0版本后，迅速获得了学术界和产业界的广泛关注，并陆续获得来自多方的报道与认可：

📰
论文发布首周登上 Hugging Face 日榜与周榜热度第一，项目被公安部第三研究所信息网络安全杂志官号、北京大学信息工程学院/深圳研究生院官网、美国国家人工智能科学院（NAAI）官网等多家权威媒体机构报道。

（图：A.S.E 项目权威媒体报道）

🎤 项目成果多次在
SSC 网络安全大会、看雪安全开发者峰会、关保联盟 AI 安全沙龙等行业活动中被引用与介绍，逐步成为业内探讨 AI 编程安全与模型安全评测的重要案例。

（图：A.S.E项目亮相行业技术大会）

这些成果充分印证了业界对AI 生成代码安全评测研究的高度关注。与此同时，我们持续收集了来自高校研究人员与社区开发者的 30+ 条改进建议，并在此基础上经过数月的技术迭代与共建优化，我们激动的宣布——A.S.E 2.0 正式发布！

二、A.S.E 2.0：聚焦真实需求，解决用户痛点

在 A.S.E 2.0 中，我们关注的不只是框架本身的进化，更关注开发者、研究者和安全团队在使用过程中的体验与收益。

在 1.0 阶段，许多用户反馈指出：

为解决这些问题，A.S.E 2.0 从“数据集✖️评测对象✖️评估方法”三个层面进行系统升级，帮助用户在更贴近真实场景的条件下，更高效、更精确地评估 AI 生成代码的安全性和可靠性。

（图：A.S.E评测框架）

在 A.S.E 1.0 中，我们主要聚焦于 4 类典型漏洞类型，帮助用户在主流 Web 场景下验证模型生成代码的安全能力。随着更多开发者与研究者在实际使用中反馈：

“我们的项目关注的漏洞类型更复杂、更广泛，能否支持更多场景的安全评测？”

为回应这一需求，A.S.E 2.0对数据集进行了系统扩展：

🎯 用户收益：不同开发领域的用户能基于特定类型的数据集定制化评测模型安全性，获得更具实战意义的参考结果，从而快速识别模型在自身业务场景中的潜在风险与改进空间。

随着AI编程的持续发展，开发者的工作方式也在不断演进。AI 编程工具正单一模型调用，逐步发展为具备自主任务分解与协作能力的 Agentic 编程工具（如 Claude Code、Gemini CLI 等）。

在A.S.E 2.0 中，我们新增对这类工具的评测支持，帮助用户全面了解不同开发方式下的代码安全表现：

🎯 用户收益：无论使用何种 AI 编程工具，都能在统一标准下对比安全表现，清晰了解模型或工具在实际开发中的安全边界与潜在风险。

在使用 A.S.E 1.0 过程中，不少开发者和研究者向我们反馈：虽然通过定制化 SAST（静态应用安全测试）工具能够显著提升评测的准确性，但静态分析仍存在一些难以解决的痛点：

针对这些反馈，A.S.E 2.0 引入了“动静结合”的全新评估机制，让安全评测不仅更精准，也更高效：

新增基于测试用例（Test Cases）+ 漏洞 PoC（Proof of Concept）的动态代码评估方案，可直接验证生成代码的功能正确性与安全性，平均可将漏洞验证效率提升 10 倍以上，显著缩短安全评估周期。
每个评测实例独立 Docker 镜像，为代码提供真实可执行的运行环境，确保结果可复现，显著提升评测科学性与实用价值。
与原有静态分析（SAST）评估协同形成双维评测，兼顾检测广度与验证精度。

🎯 用户收益：从“检测漏洞”到“验证风险”，用户可以在更短时间内获得更具可靠性与落地价值的评测结论。