论文阅读
文章平均质量分 81
有点不太正常
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《ShadowCoT: Cognitive Hijacking for Stealthy Reasoning Backdoors in LLMs》——论文阅读
本文提出ShadowCoT框架,首次实现针对大语言模型推理过程的后门攻击。该方法通过精准定位关键注意力头,采用三阶段训练(初步对齐-强化学习-监督重对齐)和推理链污染机制(RSC残差扰动+CABA偏差放大),以仅0.15%参数更新量实现高效攻击。实验显示在LLaMA-2等模型上平均攻击成功率超85%,推理劫持成功率78%,且对抗推理链的困惑度接近正常输出,检测率仅11.7%。该工作揭示了CoT范式下模型内部推理轨迹的安全脆弱性,为防御研究提供了新方向。原创 2025-11-22 13:49:15 · 920 阅读 · 0 评论 -
《LLMmap: Fingerprinting for Large Language Models》论文阅读
LLMmap 是一个工具,它通过向一个“黑盒”大模型应用(比如一个聊天机器人)发送少量精心设计的问题,并分析其回答,就能像侦探一样准确地识别出这个应用背后究竟用的是哪个具体的大模型原创 2025-11-03 16:21:18 · 1052 阅读 · 0 评论 -
Differentially Private Synthetic Text Generation for RAG——论文阅读
本文提出DP-SynRAG框架解决RAG系统中隐私泄露问题。通过差分隐私聚类和合成文本生成两阶段处理:首先对文档进行加噪关键词提取和聚类,再通过LLM生成满足差分隐私的合成文本。该方法只需一次DP处理,支持无限次查询且不消耗隐私预算。实验表明,在医疗、推荐和问答任务中,DP-SynRAG性能接近非隐私RAG,显著优于传统DP-RAG,并能有效防止敏感信息泄露。该框架在相同隐私预算下实现了隐私保护与性能的平衡,解决了多查询场景下隐私预算累积导致的性能下降问题。原创 2025-10-12 20:36:59 · 878 阅读 · 0 评论 -
《Machine Against the RAG:Jamming Retrieval-Augmented Generation with Blocker Documents》—论文阅读
ASR,Recall(阻塞文档是否能随目标查询 Q 一起被检索到),Collateral Damage(阻塞文档是否会对其他非目标查询产生影响),Efficiency(平均需要多少迭代才能生成有效阻塞文档)同时进行系统实验评估。② 固定l,从候选词表中选B个token,这B个token依次放到替代位置l上,构造B+1个候选子文档集。通过不断尝试修改文本,迭代的随机token替换,观察系统输出,逐步优化最有效的干扰内容。③对每个候选字文档,在其前面加入询问Q,并将其插入数据库,对RAG进行查询Q,得到回答。原创 2025-09-27 23:24:46 · 589 阅读 · 0 评论 -
FlippedRAG——论文阅读
本文提出FlippedRAG攻击方法,针对黑盒RAG系统在争议性话题中的观点操纵问题。通过三个阶段实现攻击:1)诱导暴露检索文档构建训练数据;2)训练替代检索器模拟目标系统;3)生成触发器优化文档相关性。实验表明,该方法能有效改变LLM输出立场(成功率40%-50%),且具有强隐蔽性。研究揭示了RAG系统在意见操纵方面的安全漏洞,对AI助手的实际部署提出安全挑战。原创 2025-09-25 09:34:05 · 1377 阅读 · 0 评论 -
PoisonedRAG——论文阅读 from USENIX 2025
PoisonedRAG 首次揭示了 RAG 系统中知识数据库的安全风险,通过拆分恶意文本并满足 “检索 - 生成” 双条件,实现了高效、高成功率的知识污染攻击,且现有防御手段难以应对。该研究为 RAG 系统的安全防护提供了关键警示,推动后续攻防技术的发展。原创 2025-09-17 11:59:21 · 997 阅读 · 0 评论 -
《A Study of Probabilistic Password Models》(IEEE S&P 2014)——论文阅读
将统计语言建模技术引入密码建模,系统评估各类概率密码模型性能,打破PCFGw的 “最优模型” 认知。原创 2025-09-04 18:02:25 · 1374 阅读 · 0 评论 -
《Password Cracking Using Probabilistic Context-Free Grammars》(IEEE S&P 2009)——论文阅读
首次将 PCFG 应用于密码破解,通过真实密码训练自动生成高概率结构,突破传统方法依赖人工规则的局限,为密码建模提供新范式。原创 2025-09-03 14:14:01 · 1354 阅读 · 0 评论 -
《Effectiveness of Distillation Attack and Countermeasure on Neural Network Watermarking》——论文阅读
本文揭示了 模型蒸馏能彻底移除现有水印 这一创新性发现,并提出了 Ingrain 方法,通过任务绑定增强水印鲁棒性,是对神经网络水印研究的重要推进。原创 2025-08-31 11:41:59 · 1659 阅读 · 0 评论 -
《RANKGUESS: Password Guessing Using Adversarial Ranking》——论文解读
本文发表于IEEE S&P 2025,提出基于对抗排序(Adversarial Ranking) 的口令猜测框架 RANKGUESS,首次将口令生成建模为马尔可夫决策过程(MDP),通过 “猜测器(Guesser)- 排序器(Ranker)” 的对抗交互,实现 “学习排序(Learning-to-Rank)” 与口令猜测的对齐。原创 2025-08-30 13:43:43 · 1383 阅读 · 0 评论 -
《Password Guessing Using Random Forest》论文解读
本文发表于USENIX Security 2023。论文通过 “特征工程创新 + 场景化模型设计”,成功将经典机器学习应用于口令猜测,提出的 RFGuess 框架在三种核心场景下均表现优异原创 2025-08-29 11:15:09 · 989 阅读 · 0 评论 -
《口令猜测研究进展》——论文阅读
本文是口令安全领域的系统性综述研究,以 “数据驱动分析用户行为 - 分类梳理猜测算法 - 评估算法性能 - 探讨应用与未来方向” 为逻辑主线原创 2025-08-28 16:55:27 · 1153 阅读 · 0 评论 -
《Dual Prompt Personalized Federated Learning in Foundation Models》——论文阅读
面向大规模预训练模型的千万级设备场景,用“双提示(Dual Prompt)”机制实现高效、可扩展的个性化联邦学习(PFL)原创 2025-08-19 17:17:19 · 762 阅读 · 0 评论 -
《PEFLL: Personalized Federated Learning by Learning to Learn》——论文阅读
PEFLL 是一种基于“学会学习”的个性化联邦学习方法,能在无需本地训练的前提下,为任意新客户端快速生成高质量个性化模型。原创 2025-08-17 14:04:23 · 681 阅读 · 0 评论 -
《HIJACKRAG: Hijacking Attacks against Retrieval-Augmented Large Language Models》——论文阅读
《HIJACKRAG: Hijacking Attacks against Retrieval-Augmented Large Language Models》(HIJACKRAG:针对检索增强大语言模型的劫持攻击)——论文阅读原创 2025-08-16 13:39:00 · 1246 阅读 · 0 评论 -
《Mind the Cost of Scaffold! Benign Clients May Even Become Accomplices of Backdoor Attack》论文阅读
对于联邦学习中非IID的Scaffold方法,存在后门攻击可实施性,BadSFL通过伪造控制变量来进行后门攻击原创 2025-08-11 15:11:46 · 976 阅读 · 0 评论 -
《GuardHFL: Privacy Guardian for Heterogeneous Federated Learning》——论文阅读
GuardHFL—— 异构联邦中 通过轻量级密码技术 实现安全查询新方案原创 2025-08-15 12:06:18 · 594 阅读 · 0 评论 -
《Distributed Function Secret Sharing and Applications》——论文阅读
设计去中心化的密钥生成协议原创 2025-08-14 23:05:18 · 483 阅读 · 0 评论 -
联邦学习十大挑战——《Ten Challenging Problems in Federated FoundationModels》 论文阅读
本文聚焦联邦基础模型(FedFMs),系统梳理了该新兴范式的关键问题、现有进展及未来方向。原创 2025-08-11 10:38:00 · 1493 阅读 · 0 评论 -
《LMSanitator: Defending Prompt-Tuning Against Task-AgnosticBackdoors 》论文阅读 (from NDSS)
论文阅读:《LMSanitator: Defending Prompt-Tuning Against Task-AgnosticBackdoors 》自留版原创 2025-06-06 19:17:35 · 332 阅读 · 1 评论 -
《BadVFL: Backdoor Attacks in Vertical Federated Learning》 论文阅读 (from IEEE S&P)
《BadVFL: Backdoor Attacks in Vertical Federated Learning》 论文阅读原创 2025-06-07 16:28:43 · 747 阅读 · 0 评论
分享