- 博客(55)
- 收藏
- 关注
原创 【论文阅读】 EmbedX: Embedding-Based Cross-Trigger Backdoor Attack Against Large Language Models
这篇论文提出了一种新型的跨触发器后门攻击方法EmbedX,针对大型语言模型的潜在安全威胁展开研究。通过将离散token触发器转化为可优化的连续embedding向量,该方法实现了对不同语言和风格输入的统一触发。研究者设计了频域和梯度双约束机制,有效隐藏了后门特征,使有毒样本在模型内部表示上与正常样本接近。实验表明,该方法在多个LLM和不同任务上攻击成功率接近100%,仅需0.53秒即可完成攻击,且在1-3%的低投毒率下仍保持90%以上的攻击成功率,显著优于现有方法。该研究揭示了基于embedding的后门攻
2025-10-21 10:18:41
937
原创 【论文阅读】Unveiling and Mitigating Backdoor Vulnerabilities based on Unlearning Weight Changes
本文提出了一种基于模型权重变化和神经元活跃度的两阶段后门防御方法TSBD。研究发现:1)后门模型中clean unlearning和poison unlearning的权重变化呈正相关;2)后门神经元具有更高活跃度。基于此,TSBD首先通过clean unlearning定位可疑神经元并重置权重,然后在微调阶段引入梯度范数正则化防止后门复现。实验表明,该方法在多个数据集和攻击场景下均达到SOTA防御效果,为仅使用少量干净数据的后门防御提供了新思路。
2025-09-18 21:19:03
621
原创 【论文阅读】Securing Agentic AI: A Comprehensive Threat Model and Mitigation Framework for Generative AI
论文针对生成式AI智能体(GenAI)的安全挑战提出了一套系统性的解决方案。研究指出,GenAI智能体因其自主性、持久记忆和工具调用能力,带来了传统安全框架难以应对的新型威胁。作者团队开发了ATFAA威胁模型,将风险归纳为认知架构漏洞、持久性威胁等5大领域共9类威胁,包括推理路径劫持、记忆投毒等。为应对这些挑战,研究提出了SHIELD缓解框架,包含分段隔离、启发式监控等6项核心策略。该研究填补了自主AI系统安全领域的空白,为企业部署GenAI智能体提供了实用的安全指导。
2025-09-14 21:46:15
1089
原创 【论文阅读】BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding——叩开语言模型的大门!
谷歌AI团队提出的BERT模型开创性地实现了深度双向预训练,通过掩码语言模型(MLM)和下一句预测(NSP)两项创新任务,使模型能够融合上下文信息理解语义。基于Transformer编码器架构,BERT采用预训练-微调范式,在11项NLP任务上取得当时最佳效果。其核心贡献包括:1)验证深度双向预训练的重要性;2)提出MLM和NSP任务实现双向学习;3)确立"预训练+微调"的通用范式。BERT显著推进了NLP领域发展,成为后续研究的基准模型。
2025-09-12 23:40:37
1319
1
原创 【论文阅读】DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks——如何检测prompt注入?
论文《DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks》提出了一种博弈论方法检测LLM的提示注入攻击。该方法通过微调专用检测LLM,构建最小最大优化问题来应对自适应攻击:防御者最小化检测错误,攻击者最大化污染效果。实验表明,DataSentinel能有效识别现有和自适应攻击,相比传统方法显著降低误报率(FPR)和漏报率(FNR)。研究还分析了提示注入与传统对抗样本的区别,并建立了包含白盒攻击者的威胁模型。
2025-09-11 14:14:17
747
原创 【论文阅读】Anchor Attention, Small Cache: Code Generation With Large Language Models——针对代码大模型的KV cache 压缩
本文提出了一种名为AnchorCoder的新方法,用于解决大型语言模型在代码生成任务中KV缓存内存占用过高的问题。通过实证研究,作者发现代码生成模型的注意力权重呈现高度稀疏性,信息倾向于聚集在特定"锚点"上。基于此,AnchorCoder采用token级锚点注意力(TAA)强制模型将整行代码信息压缩到人工植入的锚点中,并通过多头位置编码(MHPE)保留关键位置信息。实验表明,该方法能减少至少70%的KV缓存需求,同时保持模型性能。
2025-09-07 19:45:00
802
原创 【论文阅读】Security of Language Models for Code: A Systematic Literature Review
代码语言模型(CodeLMs)已成为代码相关任务的强大工具,其性能优于传统方法和标准的机器学习方法。然而,这些模型容易受到安全漏洞的影响,这引起了软件工程、人工智能和网络安全等领域越来越多的研究关注。尽管对CodeLMs安全性的研究日益增多,但该领域仍缺乏全面的综述。为了弥补这一空白,论文中系统地回顾了68篇相关论文,并根据攻击和防御策略对它们进行了整理。此外,论文还概述了常用的语言模型、数据集和评估指标,并强调了可用的开源工具和未来保障CodeLMs安全性的有前景的研究方向。
2025-09-05 21:06:28
1008
原创 循环神经网络(Recurrent Neural Network,RNN)
介绍了RNN的分类、详细原理,推导了BPTT算法的实现,给出了RNN的实现代码案例。
2024-10-28 22:17:45
2211
2
原创 卷积神经网络(CNN)
介绍了卷积神经网络各层的设计、卷积的概念、卷积神经网络反向传播的计算步骤以及使用pytorch实现卷积神经网络的代码。
2024-10-25 21:36:14
2417
4
原创 EM算法(期望最大算法、Expectation Maximization Algorithm)
介绍了EM算法的实现方式以及定理推导,给出了EM算法的python实现代码
2024-10-23 22:13:56
1228
原创 SVM(支持向量机)
支持向量机(Support Vector Machine,SVM),可以用来解答二分类问题。:把划分数据的决策边界叫做超平面,点到超平面的距离叫做。在SVM中,距离超平面最近的且满足一定条件的几个训练样本点被称为支持向量。图中,被圈出来的就是支持向量。支持向量机是要使超平面和支持向量之间的间隔尽可能的大,这样才能使两类样本尽可能地分开。间隔又分为和。硬间隔存在的问题:1.只在数据线性可分时有效 2.对异常值非常敏感。
2024-10-20 11:19:20
1141
原创 Error BackPropagation(误差逆传播)
介绍了误差逆传播算法,详细分析了前向传播和反向传播,给出了反向传播的代码以及相应的调整策略。
2024-10-18 21:09:58
1251
原创 全球DeepFake攻防挑战赛&DataWhale AI 夏令营——图像赛道
随着人工智能技术的迅猛发展,深度伪造技术(Deepfake)正成为数字世界中的一把双刃剑。这项技术不仅为创意内容的生成提供了新的可能性,同时也对数字安全构成了前所未有的挑战。Deepfake技术可以通过人工智能算法生成高度逼真的图像、视频和音频内容,这些内容看起来与真实的毫无二致。然而,这也意味着虚假信息、欺诈行为和隐私侵害等问题变得更加严重和复杂。Deepfake是一种使用人工智能技术生成的伪造媒体,特别是视频和音频,它们看起来或听起来非常真实,但实际上是由计算机生成的。
2024-07-15 22:04:16
1448
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅