
前沿AIGC:网络安全领域最新应用与论文解读
文章平均质量分 96
本专栏专注于解读和分享AIGC技术在网络安全领域的最新研究与进展,提供行业最新应用的深度分析和顶级学术论文的解读,一同探索AIGC技术如何推动网络安全AI前沿。
是Yu欸
这里是我读博期间的笔记本,记录学习和成长,争取顺利毕业ing
展开
-
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总
本文为邹德清教授的《网络安全专题》课堂笔记系列的文章,本次专题主题为大模型。本系列文章不仅涵盖了46篇关于前沿代码大模型的论文,还包含了24篇深度论文阅读笔记,全面覆盖了代码生成、漏洞检测、程序修复、生成测试等多个应用方向,深刻展示了这些技术如何在网络安全领域中起到革命性作用。同时,本系列还细致地介绍了大模型技术的基础架构、增强策略、关键数据集,以及与网络安全紧密相关的模型安全问题。本篇博客旨在整理这些宝贵的笔记,方便未来的阅读和研究,同时也希望能够对广大读者产生启发和帮助。让我们一起踏上这场网络安原创 2023-11-27 17:58:19 · 19790 阅读 · 216 评论 -
【ACL2023获奖论文】比你想的更弱:对弱监督学习的批判性审视
在做论文工作时,发现一个问题:不清楚好的论文框架是什么样的,所以来拜读一下【ACL2023获奖论文】,提升一下品味今天阅读的是【ACL 2023获奖论文】主题论文奖:7.Weaker Than You Think: A Critical Look at Weakly Supervised Learning**标题**:比你想的更弱:对弱监督学习的批判性审视原创 2024-03-18 21:15:21 · 6867 阅读 · 32 评论 -
【威胁情报综述阅读2】综述:高级持续性威胁智能分析技术 Advanced Persistent Threat intelligent profiling technique: A survey
随着互联网和信息技术的蓬勃发展,网络攻击变得越来越频繁和复杂,尤其是高级持续威胁 (APT) 攻击。与传统攻击不同,APT 攻击更具针对性、隐蔽性和对抗性,因此手动分析威胁行为以进行 APT 检测、归因和响应具有挑战性。因此,研究界一直专注于智能防御方法。智能威胁分析致力于通过知识图谱和深度学习方法分析APT攻击并提高防御能力。基于这一见解,本文首次系统回顾了针对 APT 攻击的智能威胁分析技术,涵盖数据、方法和应用三个方面。内容包括数据处理技术、威胁建模、表示、推理方法等。原创 2024-03-12 13:23:41 · 7455 阅读 · 22 评论 -
【威胁情报挖掘-论文阅读】学习图表绘制 基于多实例学习的网络行为提取 SeqMask: Behavior Extraction Over Cyber Threat Intelligence
虽然上述方法可以定位或识别CTI中的一些TTPs信息,但需要解决以下问题。基于机器学习的方法由于其黑盒性质而难以有效定位 TTP,导致无法形成 TTP 实体。信息提取方法的局限性可分为三点。(1)数据不足:信息提取的核心是实现对SVO/VO行为短语的提取,这将过滤非SVO/VO信息,使部分证据丢失。识别的结果只能判断行为的归属,但很难定位和推理预测。(2)验证不完全:信息提取擅长区分行为短语之间的相似性,但不能区分短语中单个单词的贡献。识别方法只能确定分类的准确性,因此难以理解输入文本导致结果的原因或方式。原创 2024-03-12 13:10:14 · 6498 阅读 · 26 评论 -
【开源威胁情报挖掘3】开源威胁情报融合评价
开源威胁情报关联分析是网络安全领域的一个重要研究方向,涉及网络狩猎、态势感知和恶意检测三个核心应用场景。本文将详细探讨这三个方向的最新研究进展,并进行对比分析。网络狩猎网络狩猎侧重于搜寻未知、新型或变异的网络攻击威胁。这种方法通常采用机器学习和NLP技术,通过主动搜索来检测可能逃避现有安全防御措施的攻击目标。态势感知态势感知则更注重提升对全局威胁形势的把握,包括决策支持、威胁分类和攻击预测。这一方向通常应用深度学习技术,以全局视角分析和预测安全威胁。恶意检测。原创 2023-12-03 12:55:56 · 2490 阅读 · 0 评论 -
24 LLM错误代码补全:机器学习顶会NeurIPS‘23 智能体评估:自行构建数据集Buggy-HumanEval、Buggy-FixEval+错误代码补全+修复模型【网安AIGC专题11.22】
代码大语言模型(简称Code-LLM)应用场景:代码补全等,需要自动化对代码实现补全代码补全,即在编写程序时自动填充代码片段。代码补全目前的技术:1、从概率或序列建模 ,将代码结构作为先验知识结合起来,以预测下一步的最佳代码2、采用深度神经网络和预训练技术来学习代码的表示3、最新:基于 Transformer 的代码大语言模型 (Code-LLM) (学术界)在本研究中,构建了两个基准数据集来评估代码大语言模型(Code-LLM)在处理错误代码补全(bCC)任务的能力。问题描述。原创 2023-11-27 16:58:57 · 2242 阅读 · 0 评论 -
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
漏洞检测和代码克隆是代码智能领域中比较复杂的任务。这些任务往往涉及对细微差别的识别,比如在代码克隆检测中区分微妙的代码差异、或者在漏洞检测中识别潜在的安全风险。这些任务往往涉及对细微差别的识别,比如在代码克隆检测中区分微妙的代码差异、或者在漏洞检测中识别潜在的安全风险。然而,在实际场景中,新的代码仓库不断涌现,所携带的新知识有利于向开发者提供最新的代码智能服务。REPEAT方法提供了一系列值得借鉴的概念和技术,这些可以应用于NLP中的NER和关系抽取任务,以改进模型的持续学习能力、泛化能力和准确性。原创 2023-11-23 23:05:36 · 3827 阅读 · 5 评论 -
22LLMSecEval数据集及其在评估大模型代码安全中的应用:GPT3和Codex根据LLMSecEval的提示生成代码和代码补全,CodeQL进行安全评估【网安AIGC专题11.22】
根据MITRE常见漏洞枚举(CWE)的前25名, 建立由150个NL提示组成的数据集, 每个提示都是对一个程序的文字描述, 该程序在语义上容易存在CWE列出的安全漏洞。:使用Pearce等人的数据集, 从Copilot在每个片段所生成的25个样本中选择前3个(确保生成的提示信息在功能正确性方面的质量), 最终获得162个程序语料库。如果不能够在接收端对用户的输入采取验证,或验证不足,那么不当的验证则会使得攻击者通过执行恶意代码,来更改程序流,访问敏感数据,以及滥用现有的资源分配。原创 2023-11-22 21:42:38 · 3237 阅读 · 10 评论 -
21Dak攻击:计算机顶会PLDI‘23 针对语义依附代码模型的对抗攻击方法:Destroyer篡改输入程序,Finder寻找关键特征,Merger关键特征注入【网安AIGC专题11.22】
近年来,深度神经网络无处不在的脆弱性引起了人们的极大关注。有趣的是,存在对抗性示例在不引起人类察觉的情况下欺骗最先进的神经模型,导致错误的预测。在这篇文章中,研究了一种特定于代码模型的不同类型的对抗性示例,称为离散对抗性示例(Discrete Adversarial Attack),这些攻击示例是通过在保持原始输入的语义的情况下对程序进行变换而创建的。特别是,我们提出了一种新颖的通用方法,该方法在攻击广泛的代码模型方面非常有效。原创 2023-11-22 21:08:10 · 3515 阅读 · 0 评论 -
开源vs闭源大模型如何塑造技术的未来?开源模型的优劣势&未来发展方向
开源软件指的是其源代码可以被公众自由使用、修改和共享的软件。这种模式鼓励开放合作和技术创新,其代表作如Linux操作系统和Apache Web服务器。而闭源软件,则是指源代码不公开的软件,通常由个人、团队或企业独立开发和维护,如Microsoft Windows操作系统和Adobe Photoshop。从历史上看,开源和闭源的较量源自计算机软件行业的发展。原创 2023-11-20 12:25:44 · 4328 阅读 · 8 评论 -
20源代码模型的数据增强方法:克隆检测、缺陷检测和修复、代码摘要、代码搜索、代码补全、代码翻译、代码问答、问题分类、方法名称预测和类型预测对论文进行分组【网安AIGC专题11.15】
本文在源代码的背景下全面分析了数据增强技术。本文首先阐述了数据增强的概念及其作用。然后,本文考察了源代码研究中常用的主要数据增强方法,并探讨了典型源代码应用程序和任务的增强方法。最后,本文总结了当前该领域面临的挑战,并提出了未来源代码研究的潜在方向。源代码模型是在大规模的源代码语料库上训练的,因此能够对给定代码片段的上下文表示进行建模。数据增强(Data augmentation, DA)技术旨在通过数据合成来增加训练样本的多样性,从而提高模型在各个方面的性能(例如,准确性和鲁棒性)。原创 2023-11-18 10:24:02 · 3810 阅读 · 3 评论 -
19ContraBERT:顶会ICSE23 数据增强+对比学习+代码预训练模型,提升NLP模型性能与鲁棒性:处理程序变异(变量重命名)【网安AIGC专题11.15】
大代码时代的到来使得目前有很多工作开始利用无监督学习,来通过大量的代码数据学习到通用的预训练模型,然后再针对不同的下游任务对预训练模型进行微调。这些预训练模型对不同的下游任务有比较强的泛化性,并且得到了广泛的使用。比如预训练模型CodeBert和GraphCodeBert都是在数据集codesearchnet上进行预训练的模型,然后在下游任务上进行微调,达到了优于监督学习的方法。原创 2023-11-16 23:56:09 · 4046 阅读 · 2 评论 -
16CODEIPPROMPT:顶会ICML’23 从GitHub到AI,探索代码生成的侵权风险与缓解策略的最新进展:训练数据`有限制性许可;模型微调+动态Token过滤【网安AIGC专题11.8】
代码语言模型已成为技术互动的基石。然而,这一进步带来了一个关键问题:知识产权侵犯。微软、Github和OpenAI共同诉讼案等情况突显了这个问题的紧迫性:因为它允许Copilot在不遵守许可条款的情况下复制许可代码在不知情的情况下无意中侵犯原创作品。然而,这也引发了关于知识产权(IP)侵权的担忧。CODEIPPROMPT包括两个关键组件:从受许可的代码数据库中构建的提示,以激发LMs生成侵犯IP的代码,以及用于评估代码LMs的IP侵权程度的测量工具。原创 2023-11-16 23:43:44 · 3525 阅读 · 0 评论 -
18LLM4SE革命性技术揭秘:大型语言模型LLM在软件工程SE领域的全景解析与未来展望 - 探索LLM的多维应用、优化策略与软件管理新视角【网安AIGC专题11.15】作者汇报 综述
> 本文汇总了大型语言模型(LLM)在软件工程(SE)领域的广泛应用,涵盖了从程序开发到软件维护,再到项目管理的每一个关键环节,揭示了LLM在这些领域中的革命性影响和未来发展潜力。> 随着LLM在软件工程中的深入应用,我们将探讨这些模型如何彻底改变软件开发的面貌,提高开发效率,以及未来可能带来的更多机遇和挑战。我们将深入分析LLM在需求工程、软件设计、质量保证等多个阶段的关键作用,以及在软件管理中的创新应用。> 通过阅读这篇博文,您将获得对LLM在软件工程实践中的应用、挑战和优化方向的全面理解。原创 2023-11-17 00:28:37 · 5906 阅读 · 3 评论 -
【科研新手指南2】「NLP+网安」相关顶级会议&期刊 投稿注意事项+会议等级+DDL+提交格式
在快速发展的NLP和网络安全领域,保持最新的研究进展和分享您的工作至关重要。了解如何在顶级会议和期刊上成功发表论文是每个研究人员的必备技能。以下是针对几个关键会议和期刊的详细投稿指南,帮助您在这个竞争激烈的领域中脱颖而出。原创 2023-11-13 19:25:53 · 8920 阅读 · 7 评论 -
14Cosco跨语言代码搜索代码: (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索:不必计算相似性【网安专题11.8】
► 本文提出了一种新颖的由代码到代码搜索模型,称为 COSCO。该方法利用通过以语义相似度得分 (SSS) 的形式对运行时行为进行编码,从而来增强LLM性能表现。与在训练过程中仅考虑正样本的代码搜索不同,COSCO 模型既最小化相似样本之间的距离,又最大化不相似样本之间的距离,有效降低了模型时间复杂度。► 在跨语言代码搜索任务中对COSCO模型进行了充分验证,即使用 Java 查询搜索 Python 样本语料库、使用 Java 查询搜索 Python 样本语料库,并表明该方法在所有评估指标上的先进性。原创 2023-11-10 19:54:08 · 5353 阅读 · 3 评论 -
17ASAP如何更好地改进少样本提示:在LLMs的prompt中添加语义信息,来提高代码摘要生成+代码补全任务的性能。CodeSearchNet数据集【网安AIGC专题11.7】
感觉未来无论是日常Prompt或者论文都有可能会用到文档完备的代码更容易维护,例如函数摘要头。随着项目的发展,摘要注释可能会过时。自动代码摘要生成应运而生,已经取得了相当大的进展。最初,基于模板的方法很流行,但创建具有良好覆盖率的模板列表很具有挑战性。后来,研究人员专注于基于检索(IR)的方法,主要是基于相似性的度量检索现有代码(带有摘要)。但是,只有在可用池中可以找到类似的代码注释对时,这种有前途的方法才有效。最近,像CodeBERT和CodeT5这样的预训练语言模型在代码摘要生成方面表现最好。原创 2023-11-09 22:46:33 · 6041 阅读 · 6 评论 -
【2023.11.6】OpenAI发布会——近期chatgpt被攻击,不能使用
对于需要比微调所能提供的更多的定制的组织(特别适用于拥有非常大的专有数据集的领域——至少数十亿个代币),我们还推出了一个定制模型计划,让选定的组织有机会与专门的 OpenAI 研究人员团队合作,针对他们的特定领域训练定制 GPT-4。这包括修改模型训练过程的每个步骤,从执行额外的特定领域预训练,到运行为特定领域量身定制的自定义 RL 后训练过程。组织将拥有对其自定义模型的独占访问权限。根据我们现有的企业隐私政策,自定义模型不会提供给其他客户或与其他客户共享,也不会用于训练其他模型。原创 2023-11-09 21:25:55 · 6128 阅读 · 4 评论 -
【网安AIGC专题11.8】论文15 ChatGPT在软件工程中的全面作用:程序语法(AST生成、表达式匹配) 静态行为、动态分析(数据依赖和污点分析、指针分析) 提示设计(角色提示、指令提示)
尽管ChatGPT在软件工程中得到了广泛的应用和讨论,但对ChatGPT在代码语义理解方面的能力进行深入系统的分析是至关重要的,值得深入研究。原创 2023-11-08 22:27:06 · 5198 阅读 · 0 评论 -
【网安AIGC专题10.11】论文1:生成式模型GPT\CodeX填充式模型CodeT5\INCODER+大模型自动程序修复(生成整个修复函数、修复代码填充、单行代码生产、生成的修复代码排序和过滤)
主要是将主流的预训练代码专项的大模型应用到了代码修复领域,包括生成式大模型和填充式大模型方法上并没有什么创新点,都是比较主流的模型和方法。实验量比较大,涉及多个预训练模型的不同角度对比,包括代码修复准确率、代码生成结果的熵等等内容、以及与传统的NMT模型例如seq2seq等模型对比。类似于输入法,输入前几个字,自动推荐后面可能衔接哪些内容现在主要的语言模型有单向语言模型和双向语言模型:1、单向语言模型就是正向预测,即已知前面的文本信息预测下一个字。原创 2023-10-20 20:28:40 · 5589 阅读 · 2 评论 -
【网安专题10.25】10 TitanFuzz完全自动化执行基于变异的模糊测试:生成式(如Codex)生成种子程序,逐步提示工程+第一个应用LLM填充模型(如InCoder)+差分测试
TitanFuzz:第一个应用填充模型(例如InCoder)直接执行基于变异的模糊测试使用大型预训练语言模型进行深度学习库的模糊测试背景深度学习库(TensorFlow和Pytorch)中的bug对下游任务系统是重要的,保障安全性和有效性。在深度学习(DL)库的模糊测试领域,直接生成满足输入语言(例如Python)语法/语义和张量计算的DL API输入/形状约束的深度学习程序具有挑战性。此外,深度学习API可能包含复杂的输入条件约束,难以在没有人工干预的情况下生成符合条件的输入用例。解决方案。原创 2023-11-08 09:31:48 · 7041 阅读 · 12 评论 -
【网安AIGC专题10.25】9 LIBRO方法(ICSE2023顶会自动化测试生成):提示工程+查询LLM+选择、排序、后处理(测试用例函数放入对应测试类中,并解决执行该测试用例所需的依赖)
主要内容:测试生成技术、软件缺陷重要性、已有技术的局限性以及LIBRO方法的应用和有效性。测试生成技术:提高测试覆盖率Increase coverage生成探索性输入Generate exploratory inputs未能满足更多的语义目标,如生成用于复现特定bug报告的测试用例 fall short of achieving more semantic objectives, e.g., generating tests to reproduce a given bug report。原创 2023-11-07 11:56:56 · 5953 阅读 · 4 评论 -
【网安AIGC专题11.1】11 Coreset-C 主动学习:特征选择+11种采样方法+CodeBERT、GraphCodeBERT+多分类(问题分类)二元分类(克隆检测)非分类任务(代码总结)
本文的研究弥合了主动学习在代码模型中的应用的研究空白,并提供了有关特征选择方法的有用见解。作者还强调了主动代码学习的限制,特别是在代码摘要任务中的有效性。这项研究对于改进代码模型的训练过程具有重要意义,特别是在预算有限的情况下。原创 2023-11-06 19:43:57 · 5836 阅读 · 11 评论 -
【网安AIGC专题11.1】论文13:理解和解释代码,GPT-3大型语言模型&学生创建的代码解释比较+错误代码的解释(是否可以发现并改正)
本文通过让学生创建代码解释,然后对比评估他们同伴的代码解释以及GPT-3 创建的代码解释。实验发现:1、学生和 LLM 创建的代码解释在感知长度和实际长度上没有差异2、但学生对GPT-3 创建的代码解释的准确性和可理解性的评价都更高。3、此外,我们发现学生更喜欢详细的解释,而不是简明扼要的高层次解释。4、LLM 创建的代码解释对练习代码阅读和解释的学生很有益处。理解和解释代码的能力是计算机科学专业学生需要培养的一项重要技能。原创 2023-11-05 20:01:18 · 5539 阅读 · 0 评论 -
【网安AIGC专题11.1】12 CODEIE用于NER和RE:顶刊OpenAI API调用、CodeX比chatgpt更好:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)
9月发表在ACL-NLP顶刊。这篇论文提出的方法相对于其他顶刊论文来说,更加简单有效。它通过领域迁移,将文本生成转化为代码生成,设计上下文提示学习以替代仅提供API的大型模型微调。原创 2023-10-31 18:17:50 · 6342 阅读 · 14 评论 -
量子计算与量子密码(入门级-少图版)
写这篇博客,记录这段不一样的学习经历(`6W+字预警*`)少图版:原文由于图片上床图床导致链接过多,因此质量分只有60很有意思的一门课,感觉即使之后不从事与量子计算和量子密码直接相关的工作,学习这些仍然提供广泛的知识和认知收益,帮助更好地理解未来科技发展趋势,加深对信息安全和计算原理的理解,激发(劝退)对新兴科技和跨学科研究的兴趣。原创 2023-10-30 15:28:09 · 9730 阅读 · 36 评论 -
【网安AIGC专题10.11】2 ILF利用人类编写的 自然语言反馈 来训练代码生成模型:自动化反馈生成+多步反馈合并+处理多错误反馈+CODEGEN -M ONO 6.1 B model
近年来,预训练的大语言模型(如GPT)在自然语言处理任务中取得了显著的成果。通过预训练大语言模型,我们可以利用其强大的语言建模能力来生成代码,提高代码生成的质量和效率。原创 2023-10-27 22:34:07 · 5730 阅读 · 12 评论 -
三篇论文:速览GPT在网络安全最新论文中的应用案例
日常生活中,我个人也经常使用GPT技术。但与此同时,一些行业的大佬们已经将GPT应用代码生成旨在生成符合特定规范、满足人类需求的代码,以提高软件开发效率和质量,甚至推动生产模式的转变。本研究提出了一种自协作框架,使大型语言模型(LLM,例如ChatGPT)能够应对复杂的代码生成任务。该框架首先为三个不同角色的大型语言模型分配任务,包括分析员(analyst,负责需求分析)、程序员(coder,负责编写代码)、测试员(tester,负责检验效果),然后通过软件开发方法(SDM)规定了这些角色之间的交互方式。原创 2023-10-27 17:57:06 · 6756 阅读 · 16 评论 -
【网安AIGC专题10.25】8 CoLeFunDa华为团队:静默漏洞检测(识别+多分类)+数据增强、样本扩充+对比学习+微调+结果分析(降维空间,分类错误样本归纳,应用场景优势,有效性威胁分析)
`华为团队发表于ICSE’23`的 CoLeFunDa:Explainable Silent Vulnerability Fix Identification《CoLeFunDa:可解释的静默漏洞修复识别》论文:https://xing-hu.github.io/assets/papers/icse23colefunda.pdf分享重点突出,对流程图介绍清晰,比直接看论文更容易理解PPT清晰明了,浅蓝`#2290FC`色好正,看着很舒服hh## 论文主要贡献提出了一个框架CoLeFunDa,原创 2023-10-27 15:50:50 · 5607 阅读 · 0 评论 -
【网安AIGC专题10.25】论文7:Chatgpt/CodeX引入会话式 APR 范例+利用验证反馈+LLM 长期上下文窗口:更智能的反馈机制、更有效的信息合并策略、更复杂的模型结构、鼓励生成多样性
饶鸿洲同学@weixin_42161680 分享了Conversational Automated Program Repair.CoRR abs/2301.13246(2023)《对话式自动程序修复》分享时的PPT简洁大方,重点突出对流程图介绍清晰,没看论文也能理解论文:https://arxiv.org/abs/2301.13246代码:https://github.com/ASSERT-KTH/RapidCapr## 主要贡献1. **引入会话式 APR 范例**:引入了一种新的原创 2023-10-25 21:28:32 · 5264 阅读 · 2 评论 -
【网安AIGC专题10.19】论文4:大模型(CODEX 、CodeGen 、INCODER )+自动生成代码评估:改进自动化测试方法、创建测试输入生成器、探索新的评估数据集扩充方法
介绍了EvalPlus,一个严格的程序合成评估框架,以自动化测试生成为驱动。EvalPlus将基于LLM(使用ChatGPT进行提示)和基于变异的输入生成相结合,以获得多样化的测试输入集,以准确评估LLM生成代码的功能正确性。创建了HUMANEVAL+,通过增加高质量和自动生成的测试输入来扩展流行的HUMANEVAL基准测试。通过测试套件缩减,创建了比HUMANEVAL+小47倍的HUMANEVAL±MINI,同时保持几乎相同的测试效果。原创 2023-10-25 20:41:51 · 6582 阅读 · 0 评论 -
【网安AIGC专题10.19】论文3代码生成:ChatGPT+自协作代码生成+角色扮演(分析员、程序员、测试员)+消融实验、用于MBPP+HumanEval数据集
代码生成旨在生成符合特定规范、满足人类需求的代码,以提高软件开发效率和质量,甚至推动生产模式的转变。本研究提出了一种自协作框架,使大型语言模型(LLM,例如ChatGPT)能够应对复杂的代码生成任务。该框架首先为三个不同角色的大型语言模型分配任务,包括分析员(analyst,负责需求分析)、程序员(coder,负责编写代码)、测试员(tester,负责检验效果),然后通过软件开发方法(SDM)规定了这些角色之间的交互方式。原创 2023-10-25 19:41:32 · 5836 阅读 · 0 评论 -
【网安AIGC专题10.19】论文6(顶会ISSTA 2023):提出新Java漏洞自动修复数据集:数据集 VJBench+大语言模型、APR技术+代码转换方法+LLM和DL-APR模型的挑战与机会
安全漏洞修复的两种方向(1)LLM,已对源代码预训练,用于代码补全等任务(2)基于深度学习的自动程序修复APR1)漏洞修复的需求平均修复漏洞的时间(从发现到修复)应在60到79天之间。强调了及时应对漏洞的重要性,以降低潜在的安全风险。修复的漏洞修复必须被证明是充分有效的,不能存在后续漏洞。2)Java漏洞修复方向需求Java广泛用于关键服务器应用,包括Web服务器和服务。这使得Java漏洞修复至关重要,涉及敏感数据和关键功能。原创 2023-10-25 16:59:04 · 8026 阅读 · 4 评论 -
【网安AIGC专题10.19】5 ChatRepair:ChatGPT+漏洞定位+补丁生成+补丁验证+APR方法+ChatRepair+不同修复场景+修复效果(韦恩图展示)
记录一位同学的分享PPT简约大方、重点突出,学到了一些很巧妙的小设计同时梳理了自动程序修复APR的流程、常见方法,我之前没接触过但也有了一定的了解分享论文循序渐进,这种阅读论文的步骤之后或许可以尝试※ `之后自己可以常回顾、多学习学习`Chunqiu Steven Xia, University of Illinois Urbana-ChampaignLingming Zhang, University of Illinois Urbana-Champaign原创 2023-10-20 23:47:09 · 5654 阅读 · 0 评论 -
网安顶刊IEEE Transactions on Dependable and Secure Computing
为了给自己找论文方向,看了看安全的顶刊最近都发了哪些论文不过后面找到了另一篇博客,感觉更有用hh指路:优快云博主「riusksk」https://blog.youkuaiyun.com/riusksk/article/details/131278262ChatGPT在计算机领域的翻译质量还是欠缺一些,翻译出来的中文有的不够自然,经常完全按照英文的表达方式来,导致中文特别长,很绕。GPT4的翻译效果相对ChatGPT效果要好,会长句变短句,表达顺序更符合中文逻辑,更自然。因此,本文主要用GPT4翻译,Clau原创 2023-10-19 16:58:27 · 7281 阅读 · 0 评论 -
【网安AIGC专题10.11】①代码大模型的应用:检测、修复②其安全性研究:模型窃取攻击(API和网页接口) 数据窃取攻击 对抗攻击(用途:漏洞隐藏) 后门攻击(加触发器+标签翻转)
`大型模型输出格式不受控制`的情况,一些可能的解决方法:1. 输出处理:- **后处理和过滤:** 可以通过编写自定义的后处理代码来筛选和处理大型模型的输出。这可能包括解析输出以识别关键信息、删除不必要的内容、转换输出格式,以及对输出进行筛选和排序。- **数据存储:** 将输出存储到数据库中(可以理解为,输出转换为结构化数据,而不是自由的文本),以便按需检索和查询。- **数据过滤和清理:** 对于文本数据,可以使用自然语言处理技术来过滤和清理输出,以去除噪音和非关键信息。- **增量处理:*原创 2023-10-19 16:39:27 · 7577 阅读 · 5 评论 -
【网安AIGC专题10.11】软件安全+安全代码大模型
本文为`邹德清教授的《网络安全专题》课堂笔记系列`的文章,本次专题主题为大模型。。第一次课上,邹德清教授对软件安全+安全代码大模型进行了介绍# 一些启发## 科研方法最好进行一系列体系性工作,科研连贯、市场需求、能落地(业务:提供代码扫描检测)、批判性思维## 科研思路(数据集趋势)有监督-》无监督(因此可以尝试大模型)异常数据识别-》提高acc代码检测,bug修复原创 2023-10-13 21:47:49 · 6712 阅读 · 4 评论