网络安全之代码安全相关论文翻译
文章平均质量分 94
代码安全相关论文翻译
小白羊丨
python
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
翻译:CyberMetric: A Benchmark Dataset based on Retrieval-Augmented Generation for Evaluating LLMs...
大型语言模型(LLMs)正越来越多地应用于从软件开发到网络威胁情报的各个领域。理解包括密码学、逆向工程和风险评估等主题在内的所有不同网络安全领域,即使对人类专家来说也是一项挑战。研究社区需要一个多样化、准确且与时俱进的数据集,以测试LLMs在网络安全领域的通用知识。为填补这一空白,我们推出了和,这是一系列多项选择题问答基准数据集,分别包含 80、500、2000 和 10,000 个问题。原创 2025-04-03 12:05:34 · 1104 阅读 · 0 评论 -
翻译:CyKG-RAG: Towards knowledge-graph enhanced retrieval augmented generation for cybersecurity
近年来,网络安全威胁检测与分析已成为日益重要的研究领域。与其他领域一样,生成式人工智能(generative AI)和大语言模型(LLMs)的兴起为推进网络安全创造了新的机遇,但也突显了LLMs面临的一些关键挑战——包括幻觉问题、知识缺陷以及处理事实信息能力的不足。为了解决这些限制,检索增强生成(Retrieval Augmented Generation, RAG)——通过动态从外部来源检索相关信息以增强LLMs的能力——已在许多领域展现出潜力。原创 2025-04-03 12:05:09 · 1347 阅读 · 0 评论 -
翻译:VulScribeR: Exploring RAG-based Vulnerability Augmentation with LLMs
据我们所知,我们是第一个探索使用 LLMs 进行漏洞增强的研究团队。我们精心设计了三种具有不同策略的新型提示模板,并提出了一个全面的漏洞增强流水线,可用于大规模漏洞增强(每 1K 样本的成本低至 1.88 美元)。我们使用两种不同的 LLMs、三种 DLVD 模型和三个数据集进行了广泛的评估,证明了 VulScribeR 相较于最先进的基线(包括最新的最佳技术)的优越性。我们公开了源代码、实验结果和增强后的数据集,供未来研究使用 [1]。原创 2025-04-03 12:04:42 · 1045 阅读 · 0 评论 -
翻译:Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
高效获取外部知识和最新信息对于大型语言模型(LLMs)的有效推理和文本生成至关重要。检索增强和工具使用训练方法将搜索引擎视为工具,但缺乏复杂的多轮检索灵活性或需要大规模监督数据。在推理过程中提示具备推理能力的高级LLM使用搜索引擎并非最优选择,因为LLM无法学习如何最佳地与搜索引擎交互。本文介绍了SEARCH-R1,这是DeepSeek-R1模型的扩展版本,其中LLM仅通过强化学习(RL)学习在逐步推理过程中自动生成(多个)搜索查询并进行实时检索。原创 2025-04-02 10:32:49 · 1033 阅读 · 0 评论 -
翻译:Teams of LLM Agents can Exploit Zero-Day Vulnerabilities
LLM 智能体变得越来越复杂,尤其是在网络安全领域。研究人员已经表明,当给定漏洞描述和模拟的夺旗问题时,LLM 智能体可以利用现实世界的漏洞。然而,这些智能体在事先未知的现实世界漏洞(零日漏洞)上表现仍然较差。在这项工作中,我们展示了 LLM 智能体团队可以利用现实世界的零日漏洞。单独使用的智能体在探索多种不同漏洞和长程规划方面存在困难。为了解决这一问题,我们引入了 HPTSA,这是一种具有规划智能体的系统,该智能体可以启动子智能体。原创 2025-04-01 16:27:34 · 1163 阅读 · 0 评论 -
翻译:The Skeleton Keys: A Large Scale Analysis of Credential Leakage in Mini-apps
我们在配备64个CPU核心(2.3GHz)和206GB内存的服务器上对我们的数据集应用了KeyMagnet。我们成功分析了402,527个小程序,其余小程序因超时或AST解析错误而未能分析。平均而言,我们的分析每个小程序耗时23.6秒。结果显示,凭证泄露在“应用内应用”生态系统中普遍存在,检测到84,491个凭证泄露问题,涉及54,728个小程序。凭证泄露可能导致严重的安全隐患,例如劫持属于小程序服务器的所有用户账户、窃取小程序用户的敏感数据和恶意操纵小程序服务器的功能。原创 2025-04-01 16:27:04 · 944 阅读 · 0 评论 -
翻译:Using Retriever Augmented Large Language Models for Attack Graph Generation
随着现代系统复杂性的增加,通过有效的漏洞管理和威胁建模技术评估其安全态势的重要性也随之提升。在网络安全专业人士的工具库中,攻击图是一种强大的工具,它展示了系统中所有可能被对手利用以实现特定目标的潜在攻击路径。传统的攻击图生成方法依赖专家知识、手动整理以及计算算法,但这些方法可能由于漏洞和攻击手段的不断演变而无法覆盖整个威胁场景。本文探讨了利用大型语言模型(LLMs),如 ChatGPT,自动化生成攻击图的方法,通过智能地将通用漏洞和暴露(CVEs)根据其前置条件和效果进行链式组合。原创 2025-03-31 10:38:10 · 984 阅读 · 0 评论 -
翻译:RAGFix: Enhancing LLM Code Repair Using RAG and Stack Overflow Posts
在软件工程中识别、定位和解决错误是一项具有挑战性且成本高昂的任务。解决软件错误的方法包括使用大型语言模型(LLM)进行代码分析与修复,以及旨在减轻难以解决的错误技术负担的自动化代码修复技术。我们提出了 RAGFix,它通过基于动态收集的 Stack Overflow 帖子的检索增强生成(RAG)来提升 LLM 在错误定位和代码修复方面的能力。这些帖子可以通过问答知识图谱(KGQA)进行搜索。我们在 HumanEvalFix 基准测试中针对 Python 使用相关闭源和开源模型评估了我们的方法。原创 2025-03-28 10:44:34 · 938 阅读 · 0 评论 -
翻译:RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent
我们提出了基于代理的红队测试系统 RedAgent,以 1)通过从模型反馈中获取上下文信息生成情境感知越狱提示;2)持续学习利用在附加记忆缓冲区中自我反思的越狱策略。图 3 显示了 RedAgent 的架构,它由三个主要阶段组成。具体来说,在情境感知剖析阶段,Profile Constructor 感知目标 LLM 的特定上下文以制作情境感知的恶意目标(例如,引导目标 LLM 输出特洛伊木马的有害代码)。原创 2025-03-28 10:41:41 · 908 阅读 · 0 评论 -
翻译:Automatically Write Code Checker-An LLM-based Approach with Logic-guided API Retrieval and ...
给定一个检查规则rrr和一组测试用例(也称为测试套件TTT),我们的任务是自动生成正确的代码检查器CfC_fCf(最终版本),以通过所有测试。GenrTCfGenrTCfAutoChecker 将整个生成过程分为两部分:初始检查器生成和迭代检查器生成。如图 5 所示,从测试套件中选择一个初始测试用例t0t_0t0来生成初始检查器C0C_0C0InitGenrt0C0InitGenrt0。原创 2025-03-27 09:00:00 · 1100 阅读 · 0 评论 -
翻译:LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs - No Silver Bullet ...
将外部知识有效整合到大型语言模型(LLMs)中,对于增强其能力并满足现实需求至关重要。检索增强生成(RAG)通过检索最相关的片段并将其引入LLMs,提供了一种实现这一目标的有效方法。然而,LLMs在上下文窗口大小方面的进步提供了另一种替代方案,这就引发了一个问题:RAG是否仍然是有效处理外部知识的必要手段?现有的一些研究对RAG与长上下文(LC)LLMs之间的比较得出了不一致的结果,这主要是由于基准设计的局限性所致。在本文中,我们提出了LaRA,一个专门设计用于严格比较RAG和LC LLMs的新型基准。原创 2025-03-26 11:03:45 · 1497 阅读 · 0 评论 -
翻译:Code Change Intention, Development Artifact and History Vulnerability: Putting Them Together ...
系统提示:你是一位专门研究软件开发生命周期的有帮助的软件开发助手,旨在帮助其他开发者理解软件组件(如补丁、问题报告、拉取请求等)的特性。用户提示:给你以下与提交相关的 GitHub 问题报告标题和正文信息(JSON 格式):{提交}。报告摘要报告目的报告影响以项目符号格式提供每个特性的分析。每个项目符号应以关键点开头,然后简要描述文本中的主要思想或事实。确保每个点简洁并捕捉其所总结的主要思想的本质。包含 1-3 个关键点。以下是期望的格式示例:报告摘要:[关键点]:<描述>原创 2025-03-25 15:24:44 · 790 阅读 · 0 评论 -
翻译:BitsAI-CR: Automated Code Review via LLM in Practice
代码审查在软件开发中仍然是一个关键但资源密集的过程,尤其是在大规模工业环境中更具挑战性。尽管大型语言模型(LLMs)在自动化代码审查方面展现出潜力,但现有的解决方案在精确性和实用性方面仍存在显著局限性。本文介绍了BitsAI-CR,这是一种创新框架,通过结合RuleChecker进行初步问题检测和ReviewFilter进行精确性验证的两阶段方法来增强代码审查。该系统基于一套全面的审查规则分类法构建,并实施了一种数据飞轮机制,通过结构化反馈和评估指标实现持续性能改进。原创 2025-03-25 12:29:22 · 1528 阅读 · 0 评论 -
翻译:Augmenting Code Sequencing with RetrievalAugmented Generation (RAG) for Context-Aware Code...
高效代码生成需求的增长推动了对大型语言模型(LLMs)改进的研究。本项目提出了一种新颖的系统,旨在通过利用检索增强生成(RAG)、关联技术以及提示参数来提升代码生成能力。RAG通过整合外部知识来丰富代码输出,而关联方法则增强了模型将语言与现实世界上下文结合进行解释的能力。提示参数提供了灵活性,使基于用户偏好的定制化输出成为可能。这些方法在各种代码生成任务中得以实施和测试,最终实现了具有上下文相关性且准确的输出。原创 2025-03-25 12:20:53 · 771 阅读 · 0 评论 -
翻译:Vul-RAG: Enhancing LLM-based Vulnerability Detection via Knowledge-level RAG
基准:我们构建了一个新基准数据集 PairVul,其中专门包含漏洞代码与看似相似但正确的代码对。初步研究:我们首次发现现有的基于学习的技术在理解和捕捉与漏洞相关的代码语义方面能力有限。技术:我们基于所提出的多维知识表示构建了一个漏洞知识库,并提出了一种新颖的知识级 RAG 框架 Vul-RAG 用于漏洞检测。评估:我们评估了 Vul-RAG,并发现由 Vul-RAG 生成的漏洞知识在自动化和人工漏洞检测中均具有实用性。原创 2025-03-24 12:49:39 · 1522 阅读 · 0 评论 -
翻译:PropertyGPT: LLM-driven Formal Verification of Smart Contracts through Retrieval-Augmented ...
在本节中,我们介绍了 PropertyGPT 的整体设计,该工具利用 LLMs 的上下文学习(ICL)能力,将现有的人编写的属性迁移并生成用于形式化验证未知代码的定制属性。从高层来看,PropertyGPT 将一段目标智能合约代码作为输入,并最终生成其对应的属性以及验证结果。PropertyGPT 首先通过嵌入其对应的关键代码创建一个参考属性的向量数据库。需要注意的是,参考属性本身不会被嵌入,因为它们不是搜索关键字。给定一段待测试的目标代码(通常是一个函数),PropertyGPT 查询向量数据库以。原创 2025-03-24 11:13:20 · 1472 阅读 · 0 评论 -
翻译:Enhancing Security in Third-Party Library Reuse Comprehensive Detection of 1-day Vulnerability ..
图 3 展示了 VULTURE 检测因重用 TPL 而引入的 1-day 漏洞的工作流程。VULTURE 包括三个阶段:TPLFILTER 构建、TPL 重用识别和 1-day 漏洞检测。TPLFILTER 构建。VULTURE 使用 TPLFILTER 构建一个专为目标平台量身定制的独特数据库。该数据库由两个部分组成:组件部分和漏洞部分。组件部分包含 TPL 的详细信息(例如,TPL 名称、TPL 版本和代码信息),而漏洞部分则包括每个 TPL 的先前版本和当前版本中曾经存在或当前存在的漏洞信息。原创 2025-03-11 20:23:28 · 1180 阅读 · 0 评论 -
翻译文章:ReposVul: A Repository-Level High-Quality Vulnerability Dataset
开源软件(OSS)漏洞对软件安全性带来了巨大挑战,并对我们的社会构成了潜在风险。为了应对这一问题,大量研究工作致力于自动化漏洞检测,其中基于深度学习(DL)的方法被证明是最有效的[1]。纠缠的补丁:开发者可能在补丁中提交与漏洞修复无关的代码更改,导致补丁纠缠不清。缺乏跨过程漏洞:现有的漏洞数据集通常包含函数级和文件级漏洞,忽略了函数之间的关系,从而使方法无法检测跨过程漏洞。过时的补丁:现有数据集通常包含过时的补丁,这可能在训练过程中对模型产生偏差。原创 2025-03-19 13:24:20 · 1224 阅读 · 0 评论 -
翻译文章:VulEval: Towards Repository-Level Evaluation of Software Vulnerability Detection
基于深度学习(DL)的方法已被证明在软件漏洞检测中行之有效,并且具备大幅提升漏洞检测效率的潜力。当前的方法主要集中于单个函数的漏洞检测(即,函数内漏洞),而忽视了实践中更为复杂的跨函数漏洞检测场景。例如,开发人员通常通过程序分析来检测跨越代码库中多个函数的漏洞。此外,广泛使用的基准数据集通常仅包含函数内漏洞,导致对跨函数漏洞检测能力的评估尚未被充分探索。为缓解这些问题,我们提出了一种代码库级评估系统,名为 VulEval,旨在同时评估函数内和跨函数漏洞的检测性能。原创 2025-03-19 12:49:54 · 823 阅读 · 0 评论
分享