大语言模型生成的代码仍然存在广泛的安全隐患-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_45581780/article/details/149899801

programmer writes software code on background of screens

随着时间推移，大语言模型生成的代码在某些方面有所进步 — 较新的模型生成的代码编译成功率更高 — 但在其他方面却停滞不前：尤其是安全性方面始终存在不足，人工智能生成的 Java 代码问题尤为突出。除了引入漏洞，大语言模型还容易出现错误，例如虚构不存在的软件库，并且容易受到数据集恶意投毒等问题的影响。

01 研究揭示的关键发现

应用安全公司 Veracode 本周发布了一项针对 100 多个大语言模型的研究。该研究测试了人工智能聊天机器人能否使用四种编程语言的正确语法生成代码，随后对代码进行漏洞扫描以评估其安全性。结果显示，人工智能生成的代码在语法方面有了显著提升 —— 去年发布的大语言模型生成的代码中，超过 90% 能顺利编译，而 2023 年 6 月之前这一比例还不到 20%。然而，仅有 55% 的代码通过了后续的安全扫描，这一数字长期以来几乎没有变化。

Veracode 首席技术官延斯・韦斯林（Jens Wessling）表示：“大语言模型不会让任何人省去必要的安全工作。它们学习的代码在语法上是正确的，但大多数开发者 — 尤其是从事非企业或非开源项目的开发者 — 并未真正理解自己决策所带来的安全影响，因此这些问题一直存在。大语言模型的输出以实际代码为蓝本，而实际代码本身就存在安全漏洞。”

过去两年中，开发者使用大语言模型生成代码的情况呈爆发式增长。两项调查显示，近四分之三的开发者在开源项目中使用了人工智能代码生成工具，巴西、德国和印度有 97% 的开发者也在使用大语言模型。

当非专业开发人员在缺乏专业知识的情况下使用大语言模型生成代码 — 即所谓的 “感觉编程”（vibe coding）— 安全漏洞出现在生产代码中的风险会急剧上升。

众包安全服务提供商 Bugcrowd 的创始人凯西・埃利斯（Casey Ellis）认为，企业必须想办法确保代码安全，因为人工智能辅助开发的普及趋势只会愈发明显。

他说：“经常有人问我，人工智能辅助编码究竟是好事还是坏事，但我觉得这个问题本身就问错了。如果某种工具确实能让工作变得更好、更快、成本更低，它自然会迅速普及 — 因为人们始终追求更好、更快、更便宜的解决方案。”

02 意外发现：模型规模并非关键因素

Veracode 为最受欢迎的大语言模型创建了一套分析流程（报告中未具体说明测试的模型名称），通过评估每个版本，以了解它们生成代码的能力随时间的演变情况。研究人员给每个人工智能聊天机器人分配了 80 多项编码任务，并对生成的代码进行分析。

测试发现，2023 年上半年发布的早期大语言模型生成的代码往往无法编译，而过去一年发布的更新版本中，95% 的代码都通过了语法检查。

但另一方面，Veracode 指出，代码的安全性几乎没有提升，大语言模型生成的代码中约有一半存在可检测到的 OWASP 十大安全漏洞。最先进的大语言模型生成安全代码的成功率在 40% 至 60% 之间，平均水平为 55%。

（图表：大语言模型生成代码的语法正确率（蓝色）随时间有所提高，而代码安全性（红色）则停滞不前。来源：Veracode）

该研究最令人意外的发现是，大语言模型的规模对语法正确性和代码安全性均无影响 — 参数少于 200 亿的小型模型与参数超过 1000 亿的大型模型表现不相上下。

韦斯林解释道：“这些模型的整体表现大致相似，只是在‘是否生成优质代码、准确代码或符合需求的代码’等方面存在一些差异，但这是另一个完全不同的问题。”

03 Java 代码的安全问题尤为突出

另一个值得关注的发现是，大语言模型在生成安全的 Java 代码时面临特殊困难。具有讽刺意味的是，Java 语言最初的设计初衷就包含增强程序安全性这一目标。其他测试语言（Python、JavaScript 和 C#）通过安全检查的成功率在 55% 至 62% 之间，而 Java 则表现低迷，平均成功率仅为 29%。

scatter plot of security pass rates of different vulnerability classes