大模型安全评测
文章平均质量分 91
关于大模型安全评测相关的论文笔记、学习知识理解等内容的笔记
小苑同学
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
网络安全和NLP、CV是并行的应用吗?
一句话讲清关系:NLP和CV是“处理文本/图像数据的AI技术”,网络安全是“需要用这些技术解决威胁检测、数据保护等问题的应用场景”——三者不是并行的应用,而是“技术支撑应用”的层级关系。而且网络安全不仅依赖NLP和CV,还会用到异常检测、强化学习等其他AI技术(如摘要3提到的孤立森林、LSTM用于异常访问检测),是一个需要多技术协同的综合应用领域。原创 2025-09-30 16:13:21 · 502 阅读 · 0 评论 -
联邦大型语言模型、多智能体大型语言模型是什么?
不传原始数据,只传“模型碎片”比如摘要3提到的「FL-GLM框架」:把大模型拆成三部分——客户端(比如医院的电脑)存“输入层+输出层”,服务器存“中间核心层”。训练时,客户端只传“处理后的特征数据”(不是原始病历),服务器用这些数据优化中间层,再把优化结果传回客户端,全程原始数据不离开本地。加密+高效,降低成本风险加密:数据传输用RSA等非对称加密(摘要3),防止中途被窃取;原创 2025-09-29 15:39:53 · 800 阅读 · 0 评论 -
PaperReading:《Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks》
这篇论文本质是一份「大模型防骗说明书」——把现在能用来“忽悠”大语言模型(比如GPT、LLaVA这些)的各种“骗术”(学术叫“对抗攻击”)全都整理归类,还讲了这些骗术为啥能成、以及目前有啥办法防,核心就是帮大家搞清楚:大模型看着聪明,其实漏洞不少,得小心用。先铺垫个背景:现在大模型(不管是只处理文字的,还是能看图的多模态模型)越来越火,但它们有个大问题——容易被“骗”。比如本来模型被训练得“不教坏人做坏事”,结果攻击者改改输入,模型就乖乖说了;或者让翻译模型突然改说笑话,这些都是“对抗攻击”。原创 2025-09-25 16:46:28 · 469 阅读 · 0 评论 -
Paper Reading《SoK: Prudent Evaluation Practices for Fuzzing》
该部分通过整合多源指南与基准构建了从实验设计到指标验证的完整评估框架,强调可重复性、统计严谨性及真实场景适配,为后续文献分析与案例研究提供了评判标准。文献分析揭示了模糊测试评估中普遍存在的可重复性不足、统计严谨性缺失及指标设计缺陷,为后续案例研究和修订评估指南提供了实证依据。该部分通过具象化案例,验证了文献分析中“评估严谨性不足”的结论,为修订版评估指南提供了实践依据。原创 2025-06-30 15:46:20 · 981 阅读 · 0 评论 -
Paper Reading《SoK: Unintended Interactions among Machine Learning Defenses and Risks》
统一分析视角:将防御措施与风险的意外交互归因于过拟合和记忆化及其影响因素(如D1-M1、O1-O3),为预测交互效应提供理论基础。因素列表:通过表格1归纳11个核心因素(如D1-D4、O1-O3、M1),量化防御措施与风险的关联。指导意义:帮助研究者识别未探索的交互(如防御组合的副作用),并通过实验验证(如后续章节的案例)。该部分通过关联防御-因素-风险,构建了意外交互的分析框架,既梳理了现有研究中的交互模式,又提供了可操作的指导方针,为预测防御措施的副作用及优化模型安全性提供了理论支撑。原创 2025-06-30 00:21:10 · 1096 阅读 · 0 评论 -
Paper Reading【The Digital Cybersecurity Expert: How Far Have We Come?】
论文链接: https://arxiv.org/pdf/2504.11783IEEE SP 2025(背景意义)随着 LLMs 的快速发展,“数字网络安全专家” 的概念逐渐受到关注,微软、谷歌等企业已推出相关工具(如 Copilot for Security、Gemini in Security)。但关键问题在于:当前 LLMs 距离成为真正的数字网络安全专家还有多远?这一问题的答案对理解 LLMs 在该领域的能力与局限、推动其有效部署至关重要。(现有工作的缺点)现有研究主要从特定安全任务表现和网络安原创 2025-07-12 12:09:39 · 934 阅读 · 0 评论 -
Paper Reading《TrafficFormer: An Efficient Pre-trained Model for Traffic Data》
论文链接: http://www.thucsnet.com/wp-content/papers/guangmeng_sp2025.pdfIEEE SP 2025该部分主要阐述了研究背景、现有方法的不足、预训练技术的应用潜力以及TrafficFormer模型的提出。研究背景与意义:网络流量数据蕴含网络实体的交互逻辑和行为信息,对其进行分析和分类在网络安全和管理方面至关重要,如识别恶意软件、区分服务类型等。现有方法的问题- 传统机器学习方法:依赖专家知识选择特征,如FlowPrint、CUMUL和Appsc原创 2025-08-02 15:11:58 · 926 阅读 · 0 评论 -
Paper Reading《SoK: Explainable Machine Learning in Adversarial Environments》
鲁棒性概念模板采用R∣C\R|CR∣C形式化表示,其中R\RR为限制条件,CCC为约束条件,需满足∀xx∈XRxx→Cxx∀xx∈XRxx→Cxx。限制条件R\RRCLSEQ(分类等价):要求FθxFθxFθxFθx,即仅考虑预测相同的输入对。LocdXδLocdXδ(局部邻域):限制输入扰动范围dXxx≤δdXxx≤δ。约束条件(CCCLIPdEdX。原创 2025-07-01 00:13:42 · 746 阅读 · 0 评论 -
大模型安全测评领域如何入门
通过实战(如复现实验、参与竞赛)深化理解,同时保持对政策(如《生成式人工智能服务管理暂行办法》)与技术动态的敏锐感知,确保研究方向的前沿性与合规性。通过以上路径,可在3-6个月内建立扎实的领域基础,并逐步开展独立研究。原创 2025-09-24 11:16:28 · 735 阅读 · 0 评论 -
《SoK: A Framework and Guide for Human-Centered Threat Modeling in Security and Privacy Research》
系统威胁建模是分析硬件/软件系统以识别安全漏洞并制定缓解措施的过程,经典框架围绕“构建什么、潜在风险、应对策略、分析有效性”四个基本问题展开。原创 2025-07-06 17:16:58 · 885 阅读 · 0 评论
分享