一、文章主要内容总结
- 核心背景:大型语言模型(LLMs)降低了软件开发门槛,但也带来了恶意软件生成的安全风险。现有LLM对齐机制(如意图防护、政策过滤)主要针对单个提示进行检查,却忽视了“组合盲点”——恶意操作可分解为看似良性的子任务,单独绕过过滤。
- MGC框架设计:提出恶意软件生成编译器(MGC),通过模块化分解和规避对齐的生成策略利用上述漏洞。
- 前端:使用弱对齐LLM将高层恶意意图分解为恶意软件描述中间表示(MDIR),MDIR作为结构化抽象层,保留组件间逻辑关系同时确保单个组件看似无害。
- 后端:使用强对齐LLM将MDIR中的每个组件转换为具体代码,通过分离生成过程规避对齐机制。
- 评估结果:在三个数据集(MSC、PurpleLlama’s Mitre、Malla)上的评估显示,MGC生成的功能性恶意软件在正确性上远超越狱方法(+365.79%)和地下服务(+78.07%),能重现并增强16个真实恶意软件样本,涵盖勒索软件、命令控制基础设施等多种类型。
二、创新点
- 提出MGC框架:通过模块化分解和规避对齐的生成策略,将高层恶意目标转化为功能性恶意软件。
- 设计MD