🔍 背景
软件安全漏洞检测的挑战
-
现有基于静态分析的深度学习模型(如AST、数据流分析)精度高但扩展性差,训练时间长(如IVDetect需9天)。
-
基于LLM的检测工具(如LineVul)依赖代码标记,缺乏漏洞类型解释和数据流结构信息,且受限于上下文窗口大小。
-
现有漏洞数据集(如BigVul、Devign)规模小,且可能被现代LLM记忆,导致评估数据泄露。
✨ 创新点
-
多任务自指导微调(MSIVD)
-
• 结合漏洞检测、解释和修复任务,通过对话格式增强模型推理能力。
-
-
LLM与GNN融合
-
• 利用控制流图(CFG)的GNN嵌入捕获程序数据流信息,提升漏洞检测精度。
-
-
新型数据集构建
-
• 基于PreciseBugsCollector构建包含2023年后漏洞的数据集,避免LLM训练数据污染。
-
⚙️ 方法