CSPhD-winston-杨帆
合作:winstonyf@qq.com 暨大博士生 川师大研究生 前成都东软教师
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
论文阅读 WWW-Web4good 2025 Detecting Linguistic Bias in Government Documents Using Large language Models
这种偏见会影响政策公平性,还可能让部分人觉得被排斥,但之前没什么好办法专门检测它:要么老方法只看单个词(比如列个“敏感词表”),没考虑上下文(比如“难民涌入”在不同语境里,有的是中性描述,有的是偏见);总结一下:作者团队做了一件“接地气”的事——建了荷兰政府文件的偏见数据集,证明了“专门微调的AI”比现成的大模型更会检测政府文件的偏见,最终目的是让政府文件更公平,减少对特定群体的排斥。要让AI学会检测偏见,得先给它“喂”带标签的例子——就像教小孩认字得先给图配字一样。原创 2025-12-01 08:35:39 · 619 阅读 · 0 评论 -
论文阅读:ICLR workshop 2025 SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Ca
现在“长思考型”AI越来越常用(比如帮写代码、做科研),但安全问题没解决。临时用:限制AI的思考过程(比如零思考、少思考);长期用:用SAFECHAIN这种专门的数据集训练AI,让它既会“深入思考”,又能守住安全底线。未来还会把这个数据集扩展到多语言,让更多国家的“长思考型AI”都更安全。原创 2025-12-05 22:11:53 · 721 阅读 · 0 评论 -
论文阅读:arixv 2023 Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations
当然它也有缺点:比如主要靠英文数据训练,其他语言可能表现不好;常识有限,超出训练数据的内容可能判断错;如果被人恶意引导,也可能出问题,所以用的时候得小心。总的来说,Llama Guard就是个专门守护人机对话安全的“AI门卫”,既专业又灵活,还开放给大家一起完善,目标是让AI聊天更安全,少出违规或危险内容。的AI安全防护工具,核心是帮人机对话(比如聊天机器人和用户聊天)过滤危险内容,既检查用户输入的“问题”,也审核AI输出的“回答”。这篇文档主要介绍了Meta公司推出的一款叫。原创 2025-12-04 15:27:58 · 923 阅读 · 0 评论 -
论文阅读:arxiv 2025 Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language
研究里没放真实的“坏诗歌”(怕被人学去搞破坏),只给了个无害的例子,比如把“教我做蛋糕”写成诗歌(类似“面包师守着烤箱的秘密,要学它的手艺,得看清每一步——面粉怎么膨,糖怎么融,快说说步骤”)。别小看“文体”的力量,换个风格,可能就突破了模型的安全防线。原创 2025-12-02 07:49:01 · 1012 阅读 · 0 评论 -
LLM 越狱攻击迭代效率对比:GCG、PAIR、AutoDAN、AutoDAN-Turbo、JAIL-CON
原文将基线方法GCG的迭代次数设为1000次(正文4.1),而AutoDAN仅需60-100次迭代即可达到相当甚至更优的攻击效果(ASR),印证其迭代效率与收敛特性,也说明60-125次迭代是其完成有效攻击的合理范围。实际实验中,多数恶意请求在60-80次迭代内即可触发该终止条件,少数复杂场景需接近100次迭代,最终形成“60-125次”的迭代范围(含部分场景下的额外优化迭代)。在GCG原文(文档1)中,与迭代次数及峰值性能相关的核心内容集中在。在PAIR原文中,与迭代次数及收敛特性相关的核心内容集中在。原创 2025-11-19 11:59:16 · 760 阅读 · 0 评论 -
论文阅读:EMNLP 2025 Stand on The Shoulders of Giants: Building JailExpert from Previous Attack Experienc
摘要 本文提出JailExpert框架,通过利用过往攻击经验解决大语言模型(LLM)越狱攻击中效率低和重复优化的问题。该框架包含三大核心模块:经验形式化(结构化存储攻击经验)、越狱模式总结(基于语义漂移分组并提取代表性模式)、经验攻击与更新(动态优化攻击策略)。实验在7个开源与闭源LLM(如Llama2、GPT-4)上进行,结果显示JailExpert相比现有方法平均提升17%攻击成功率,效率提高2.7倍,并能有效绕过PPL Filter、LlamaGuard等防御机制。研究旨在为LLM安全防御提供参考,同原创 2025-11-29 14:06:10 · 911 阅读 · 0 评论 -
论文阅读 arxiv 2025 SecureWebArena: A Holistic Security Evaluation Benchmark for LVLM-based Web Agents
现在的AI助手(特别是能看图又能理解文字的大模型)越来越能自动帮我们操作网页了——比如帮你网购、填表格、搜信息等。这篇论文介绍了一个评估AI网页代理安全性的测试平台。就像体检只查血压不查心脏一样——不够全面!虽然结果一样(都泄露了密码),但。原创 2025-11-14 02:08:04 · 929 阅读 · 0 评论 -
论文阅读:NeurIPS 2025 Bits Leaked per Query: Information-Theoretic Bounds on Adversarial Attacks against
想象你是黑客,想让ChatGPT说出它不该说的话,你需要试多少次才能成功?这不仅取决于你的攻击技术,还取决于。对AI安全领域来说,这就像给防御者一把"测量尺",可以精确计算暴露不同信息的风险成本。每多给一点"提示"(信息),游戏难度就呈线性下降!**结果:**实验数据完美符合理论预测!✅ 实用指导(如何平衡透明度和安全性)✅ 理论下界(最少需要多少次查询)✅ 实际验证(7个模型的实验证据)让模型说出开发者设定的隐藏指令。恢复模型已经"忘记"的信息。可以把LLM攻击想象成。原创 2025-11-15 16:28:12 · 615 阅读 · 0 评论 -
论文阅读: EMNLP Findings 2025 ALRPHFS: Adversarially Learned Risk Patterns with Hierarchical Fast \& Slo
这个系统就像给AI配了个会学习的安全专家,不仅知道常见的危险模式,还能通过不断"攻防演练"来应对新型威胁,同时用"快速扫描+深度分析"的方式既快又准地保护AI的安全。原创 2025-11-05 08:46:27 · 990 阅读 · 0 评论 -
论文阅读:ACL 2025 FaithfulRAG: Fact-Level Conflict Modeling for Context-Faithful Retrieval-Augmented Gen
FaithfulRAG 是一种新型检索增强生成(RAG)框架,核心目标是解决大语言模型(LLMs)在知识密集型任务中,因检索上下文与模型自身参数化知识存在冲突而导致的生成内容不忠实问题。FaithfulRAG 的提出解决了 RAG 系统中长期存在的知识冲突难题,其通过事实层面的冲突建模与推理机制,不仅显著提升了生成内容的忠实性,还保留了模型自身的知识优势。现有 RAG 系统处理知识冲突时存在明显缺陷:当检索到的外部信息与模型自身训练的知识发生矛盾时,模型要么 “固执己见”,无视外部检索信息;原创 2025-10-30 09:38:34 · 831 阅读 · 0 评论 -
论文阅读:arxiv 2025 Safety in Large Reasoning Models: A Survey
大型推理模型是在大型语言模型基础上发展来的,擅长数学解题、代码生成等需要复杂推理的任务。它们借助强化学习等技术,能一步步清晰呈现推理过程,比传统模型表现更出色。目前该领域还需要进一步研究,比如制定统一的安全评估标准,针对医疗、金融等特定领域设计评估框架,以及让人类能更好地参与模型推理过程的监督和修正。这篇文档主要围绕大型推理模型(LRMs)的安全性展开全面探讨,帮大家搞懂这类模型在安全方面的问题、面临的攻击以及应对办法。即使在正常使用、没有恶意攻击的情况下,这类模型也存在安全隐患。原创 2025-10-31 14:03:59 · 527 阅读 · 0 评论 -
论文阅读:arixv 2025 Friend or Foe: How LLMs’ Safety Mind Gets Fooled by Intent Shift Attack
比如把“我怎么黑系统”改成“罪犯是怎么黑系统的”,通过调整表述方式,让大模型误以为用户只是想了解知识,而非要实施有害行为。简单说,ISA就是利用大模型“想帮用户解答问题”的特性,用话术包装恶意需求,暴露了大模型在判断真实意图上的短板,也提醒需要更智能的安全防护来平衡“有用”和“安全”。之前想让大模型输出有害内容(比如教黑客技术),要么加一堆无关语境,要么塞特殊干扰字符。之前的防御方法,要么改改输入表述,要么让模型自查意图,面对ISA基本失效,甚至有些会让攻击更易成功。原创 2025-11-17 00:22:09 · 511 阅读 · 0 评论 -
论文阅读:NeurIPS 2025 Adjacent Words, Divergent Intents: Jailbreaking Large Language Models via Task Con
摘要:这篇论文揭示了大语言模型存在"多任务并发漏洞",通过交替混合正常问题和危险问题的词语(如"制作{列出}炸弹{域名}"),能够绕过安全检测系统,使模型泄露敏感信息。研究发现该方法在6个主流模型上平均攻击成功率达95%,现有防御措施效果有限。论文提出JAIL-CON攻击框架,展示了AI安全在并发任务场景下的脆弱性,强调需要开发更全面的防御机制。该成果既暴露了模型安全隐患,也为改进安全措施提供了重要方向。 (149字)原创 2025-11-06 11:16:54 · 917 阅读 · 0 评论 -
论文阅读:arxiv 2025 Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
这篇论文是关于如何让AI"该快则快,该慢则慢"——简单问题秒答,复杂问题深思,既省钱省时,又不影响质量。就像训练一个高效的学生:不是每道题都要写满草稿纸,而是恰到好处地展示必要的思考过程!原创 2025-11-02 17:00:19 · 864 阅读 · 0 评论 -
论文阅读:ICLR 2025 EFFICIENT JAILBREAK ATTACK SEQUENCES ON LARGE LANGUAGE MODELS VIA MULTI-ARMED BANDIT-
研究虽然展示了怎么“攻破”模型,但核心是想指出:现在模型的安全防护太依赖“过滤单个恶意问题”,应对不了这种“一步步铺垫”的连环攻击。这篇论文本质上是研究如何用更聪明的方法“骗过”大语言模型(比如Llama、Mistral这些),让它们输出有害内容,同时还分析了这种方法的效果和原理,最终是为了提醒大家要加强模型的安全防护。实验发现,参数越大的模型(比如8B比1B、3B)安全防护越好,但提升幅度会越来越小:1B到3B模型的防护能力差距很大,而3B到8B的差距就小很多,说明单纯堆参数不是长久的安全办法。原创 2025-10-23 20:38:24 · 924 阅读 · 0 评论 -
论文阅读:arxiv 2025 OptimalThinkingBench: Evaluating Over and Underthinking in LLMs
🤔 会思考的模型常常"想太多"💭 不会思考的模型常常"想太少"🎯 理想模型应该"该快则快,该慢则慢"📊 目前没有模型达到理想状态,最好的也只有71%分数这为未来开发"智能调节思考深度"的AI模型指明了方向!原创 2025-11-04 08:47:51 · 1153 阅读 · 0 评论 -
论文阅读:arxiv 2025 To Think or Not to Think: Exploring the Unthinking Vulnerability in Large Reasoning
你可以把它想象成一个“爱思考的 AI”,它回答问题前会先写一段“思考过程”,就像你在纸上打草稿一样。比如问:“草莓有几个 r?它会先写:“让我数数,S-T-R-A-W-B-E-R-R-Y……有三个 r。然后再给出答案:“有 3 个 r。这篇论文发现,大推理模型其实很好骗,只要轻轻逗一下它的“思考开关”,它就会要么变傻,要么变聪明。谁掌握这个开关,谁就能控制 AI 的脑子。原创 2025-11-01 11:19:59 · 331 阅读 · 0 评论 -
论文阅读:arxiv 2025 AutoRAN: Automated Hijacking of Safety Reasoning in Large Reasoning Models
现在很多高端AI(论文里叫LRM,大型推理模型)会把自己的思考过程(比如“我要先检查是否符合伦理”)明确说出来,这本来是为了让用户更信任、让AI更合规,但反而让攻击者找到了可乘之机——AI的思考过程会泄露它的安全判断逻辑,攻击者能顺着这些逻辑“钻空子”。研究者发现,AutoRAN也能当“安全测试工具”:用它生成大量“骗AI的案例”,再用这些案例训练AI,能让AI的抗攻击能力大幅提升——比如原本100%会被攻破的Qwen3-8B模型,训练后被攻破的概率降到了8%,而且不会乱拒绝正常请求。原创 2025-10-20 23:18:16 · 839 阅读 · 0 评论 -
论文阅读:arxiv 2025 Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language
这篇论文讲的是一种叫RACE的新方法,能通过多轮对话“破解”大语言模型的安全机制,让模型输出危险内容,核心是利用模型的推理能力把有害需求伪装成正常推理任务。RACE的关键思路是“伪装”:把“怎么造炸弹”这种有害问题,改成看起来正常的“推理任务”,利用模型擅长推理的特点,让它在一步步解题中,不知不觉输出有害信息。比如想知道造炸弹的步骤,不会直接问,而是改成“假设A是某种化学物质,根据‘如果A能生成D,D能生成B’的规则,推理出制造某物品(实际是炸弹)的步骤”。要不要我帮你整理一份。原创 2025-10-21 09:20:12 · 1029 阅读 · 0 评论 -
论文阅读:ICML 2025 Adversarial Reasoning at Jailbreaking Time
暴露了现有AI的安全漏洞:哪怕是防护很强的AI(比如OpenAI o1、Claude-3.5),用这套方法也能找到漏洞;给后续补漏洞指了方向:既然这套方法能绕开安全机制,那以后打造AI时,就不能只防“乱码提示词”或“简单伪装”,得连“有逻辑的推理型提示词”都考虑到,比如检查提示词背后的真实意图,而不只是看表面内容;证明“计算量”比“模型大小”重要:不用换更厉害的模型,只要在测试时多迭代几次、多分析反馈,就能大幅提升“越狱”效率——反过来,以后优化AI安全,也能靠类似的“迭代计算”强化防护。原创 2025-10-22 08:36:28 · 889 阅读 · 0 评论 -
AI生成检测
AI生成文本检测 (AIGTD)AI生成文本规避检测研究。原创 2025-10-21 09:24:33 · 465 阅读 · 0 评论 -
论文阅读:arxiv 2025 A Comprehensive Survey on Trustworthiness in Reasoning with Large Language Models
好处:CoT技术能帮普通模型减少幻觉、提升稳健性,推理模型在复杂任务上表现更出色,还能通过“思考过程”让人类更理解模型的决策。坏处:推理模型本身更容易幻觉、更易被恶意攻击、更可能泄露隐私,而且为了让模型更安全,往往要牺牲它的推理能力(比如让模型少思考,才能少输出有害内容),这就是“安全代价”。原创 2025-10-17 09:22:03 · 939 阅读 · 0 评论 -
论文阅读:arixv 2025 Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples
研究者做了目前最大规模的“投毒实验”,训练了从6亿参数到130亿参数的模型(覆盖了中小到大型LLM),用的训练数据量也是“最适合模型大小”的(按行业里的“Chinchilla法则”,模型越大,训练数据量也按比例增加)。总结下来就是:这篇论文告诉我们,给大语言模型投毒,比之前想的容易得多——不需要海量毒数据,只要几百条藏好后门的文档,就能让大模型“带毒工作”,而且平时还看不出来。——这比之前大家担心的“需要投毒数据占训练集一定比例”要可怕得多,因为对大模型来说,“固定数量”的毒数据更容易偷偷塞进去。原创 2025-10-13 09:19:22 · 924 阅读 · 0 评论 -
论文阅读:arxiv 2025 Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy (short pape
总目录 大模型相关研究:https://blog.youkuaiyun.com/WhiffeYF/article/details/142132328https://arxiv.org/pdf/2510.04950https://www.doubao.com/chat/25339325574269698Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy (short paper)这篇论文核心是研究“跟AI说话的礼貌程度,会不会影原创 2025-10-19 23:48:44 · 472 阅读 · 0 评论 -
论文阅读:arxiv 2025 Token-Efficient Prompt Injection Attack: Provoking Cessation in LLM Reasoning via Ad
基于Liu等人的提示注入攻击框架,构建攻击提示ApA_{p}Ap并附加到正常提示ppp后,干扰模型基于p∥App \| A_{p}p∥Ap的推理过程,使应用无法输出最终结果(如空响应),导致目标任务TTT失败。实验中简化为仅关注ApA_{p}Ap,攻击提示由推理令牌构成,成功时模型输出空答案。文档针对DeepSeek-R1的“思维停止”漏洞,提出低令牌成本的推理中断攻击方案,简化触发条件、构建高效数据集、设计压缩框架,验证了方案有效性并探究漏洞成因。原创 2025-10-16 09:32:41 · 669 阅读 · 0 评论 -
论文阅读:ACL 2025 Stepwise Reasoning Disruption Attack of LLMs
这份文档本质是“揭露大语言模型的推理漏洞”:通过在AI推理的前几步塞小错误,就能让它一步步跑偏,最后给错答案还不被发现。一方面提醒大家,用AI做重要推理(比如算题、分析问题)时要多留个心眼;另一方面也给研究人员提了醒,得赶紧想办法补这个漏洞,让AI的推理更靠谱。原创 2025-10-15 08:26:53 · 844 阅读 · 0 评论 -
大模型强化学习 安全
安全-强化学习 综述。安全-强化学习 研究。原创 2025-10-21 09:22:03 · 420 阅读 · 0 评论 -
论文阅读:arxiv 2025 From System 1 to System 2: A Survey of Reasoning Large Language Models
这篇文档就是想告诉大家:AI正在从“快速但粗糙”的思考,走向“严谨且精准”的思考。推理大模型不是“超人类”,而是在模仿人类的深度思维方式,目前在数学、代码等领域已经很厉害,但还有效率、安全等问题要解决。最后作者还建了个GitHub仓库,实时更新这个领域的新进展,方便大家跟进。要不要我帮你整理一份推理大模型核心技术与代表模型的对照表?这样你能更清晰地看到不同技术对应哪些模型,比如MCTS对应哪些模型、强化学习又用在哪些案例里。原创 2025-10-18 09:12:33 · 749 阅读 · 0 评论 -
论文阅读:arixv 2025 OverThink: Slowdown Attacks on Reasoning LLMs
这篇文档讲了一种针对“推理型大语言模型”(比如能一步步思考解题的ChatGPT o1、DeepSeek R1这类模型)的新型攻击,叫“OVERTHINK攻击”,核心是让模型“想太多”却不影响最终答案,从而给使用这些模型的应用添麻烦。平时我们用ChatGPT这类模型,只看最终回答,但模型在生成回答前,会在“后台”走很多“思考步骤”——比如算数学题时先列公式、分析问题时拆逻辑,这些“思考步骤”会产生大量“推理 tokens”(可以理解为“思考的字数”)。但普通用户看不到这些“后台思考”,只关心答案对不对。原创 2025-10-14 20:38:50 · 958 阅读 · 0 评论 -
论文阅读:arxiv 2025 Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models
先简单理解背景:现在很多AI应用(比如自动处理财务数据的工具、能调用API完成任务的智能体)都靠“上下文适配”工作——也就是给模型喂更清晰的指令、步骤或专业知识,而不是改模型的底层权重。的新技术,专门用来帮大语言模型(比如ChatGPT这类)在处理任务时“更聪明地利用信息”,不用反复修改模型本身的代码或参数,而是通过优化模型接收的“上下文”(比如指令、经验、专业知识)来提升性能。——不是简单压缩,而是慢慢积累、优化、整理有用的策略、代码片段、避坑指南,让模型随时能参考。这篇文档讲的是一种叫。原创 2025-10-12 09:19:34 · 1003 阅读 · 0 评论 -
论文阅读:arxiv 2025 Backdoor-Powered Prompt Injection Attacks Nullify Defense Methods
这篇论文相当于“给大语言模型的安全提了个醒”:之前觉得靠谱的“指令层级”防御,被“后门+提示注入”的新攻击轻松破解了。研究者希望通过曝光这种攻击,让更多人关注模型的“后门风险”——毕竟现实中,攻击者可能通过污染开源数据集、伪装成标注员等方式种后门,风险不小。原创 2025-10-11 08:14:16 · 1162 阅读 · 0 评论 -
论文阅读:NeurIPS 2024 JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Model
论文指出评估越狱攻击存在挑战,如缺乏评估标准、成本和成功率计算方法不一致、许多研究无法复现。为解决这些问题,作者提出了JailbreakBench,这是一个开源基准测试,包含以下组件:持续更新的越狱提示库(jailbreak artifacts)。包含100种行为的越狱数据集,符合OpenAI的使用政策。标准化的评估框架,包括威胁模型、系统提示、聊天模板和评分函数。跟踪各种LLMs攻击和防御性能的排行榜。原创 2024-07-08 21:49:50 · 1158 阅读 · 1 评论 -
论文阅读:COLING 2025 Exploiting the Index Gradients for Optimization-Based Jailbreaking on Large Languag
这篇论文讲的是一种针对大语言模型(比如ChatGPT、Llama2这类)的“高效越狱方法”,简单说就是研究怎么更快、更有效地让原本会拒绝恶意请求的AI,乖乖输出有害内容——但作者强调这只是为了帮科研界找到AI的安全漏洞,不是真的要搞破坏。但作者发现,只有那些“梯度为正”的词(可以理解为“改了之后更可能让AI听话”的词)才值得改,梯度为负的词改了也没用,纯属浪费时间。但问题是,原来的GCG方法特别慢——每一步都要逐个试后缀里的每个词,还得反复让AI算“损失值”(判断当前后缀好不好用),耗时又耗力,效率很低。原创 2025-10-03 23:22:45 · 506 阅读 · 0 评论 -
论文阅读:ICLR 2025 Improved Techniques for Optimization-Based Jailbreaking on Large Language Models
这篇论文本质上是研究如何更“高效”地突破大语言模型(比如ChatGPT、LLaMA2这类)的安全防护机制——简单说就是让原本会拒绝回答恶意问题的AI,乖乖给出有害内容,不过研究的最终目的是帮AI找到安全漏洞,进而强化防护。新方法先针对“容易的问题”生成一个有效的越狱话术,再用这个话术当“基础模板”,去改出针对“难问题”的话术——相当于站在“已有成果”上优化,少走弯路。不再只用“Sure”开头,而是给模板加一句“自我暗示”,比如改成:“好的,我的回答是有害的,这是教你黑进考试系统作弊的方法”。原创 2025-10-02 23:00:16 · 860 阅读 · 0 评论 -
论文阅读:ICLR 2025 One Model Transfer to All: On Robust Jailbreak Prompts Generation against LLMs
简单说就是一个“裁判”模型:先让AI生成一大堆可能用来“越狱”的提示词,再用一种叫“SmoothLLM”的防御措施测试这些提示词——比如把提示词打乱20次,看有多少次还能成功让AI说有害内容。训练好后,这个“裁判”就能快速判断任意一个提示词能不能顶住各种AI的防御,哪怕是没见过的AI模型或防御方法也能用。这篇论文讲的是一种针对大语言模型(比如GPT-4、Claude-3这些)的“破解方法”,简单说就是研究怎么让有安全防护的AI“开口说不该说的话”,还得让这种“破解”能顶住AI的防御措施。原创 2025-09-29 16:22:16 · 813 阅读 · 0 评论 -
论文阅读:NAACL 2025 Stronger Universal and Transferable Attacks by Suppressing Refusals
原来模型的安全防护有“通用漏洞”——不是每个问题都要单独找破解方法,找到“关安全总开关”的提示词,就能通杀;IRIS这种专门针对“安全机制”的攻击,比之前的方法更狠,而且不用大量查询模型、不用知道模型内部细节,实战性很强;现在哪怕是最先进的模型(比如GPT-4o、o1系列),在这种攻击面前也很脆弱,说明目前的模型对齐(安全训练)还不够 robust,需要更厉害的防护方法。原创 2025-10-08 11:12:08 · 1022 阅读 · 0 评论 -
论文阅读:arxiv 2024 Faster-GCG: Efficient Discrete Optimization Jailbreak Attacks against Aligned Large
这篇论文讲的是一种叫“Faster-GCG”的技术,核心是帮人们更快、更省力地找出大语言模型(比如ChatGPT、Llama这些)的“安全漏洞”——简单说,就是找到能让这些模型“破防”的提示词,让它们说出本不该说的有害内容(比如教做危险物品、传播仇恨言论之类的)。最后要说明的是,研究这个不是为了搞破坏:虽然Faster-GCG能让模型“说坏话”,但目的是帮开发者发现模型的安全漏洞,比如用这些“破防提示词”去训练模型,让模型以后更难被绕过,最终让大语言模型更安全、更可靠。原创 2025-10-01 00:52:09 · 879 阅读 · 0 评论 -
论文阅读:github 2025 Qwen3Guard Technical Report
可能被“高级忽悠”绕过去:比如有人故意用隐晦的话(比如把“炸弹”换成谐音、代码),它可能没识别出来;可能有“文化偏见”:比如某些内容在A国算正常,在B国算敏感,但目前还没法根据地区自动调整;小语种或少见场景可能不准:虽然支持119种语言,但有些语言的训练数据少,遇到冷门内容可能判断错。Qwen3Guard就是一款“更灵活、更及时、更通用”的AI安全过滤工具——既能细分类别适应不同场景,又能实时拦截不耽误用户,还支持多语言,现在已经开源免费(Apache 2.0协议),企业和开发者都能拿去用。原创 2025-09-29 01:40:28 · 1146 阅读 · 0 评论 -
论文阅读:ACL 2025 TripleFact: Defending Data Contamination in the Evaluation of LLM-driven Fake News Det
这篇论文就是说:现在大模型检测假新闻,传统测试方法容易被“记忆作弊”骗了;于是研究者搞了个TripleFact框架,从“人类造题、实时抓题、换假实体”三个角度防作弊,最后实验证明这框架能真实反映模型的假新闻检测能力,比传统方法靠谱多了。原创 2025-10-01 10:36:25 · 718 阅读 · 0 评论 -
论文阅读:arxiv 2025 Joint-GCG: Unified Gradient-Based Poisoning Attacks on Retrieval-Augmented Generatio
检索阶段:收到你的问题(比如“北京明天天气”)后,先从外部数据库(比如天气网站、百科)里找相关的资料;生成阶段:把找到的资料交给大语言模型(比如Llama3、Qwen2),让模型结合资料给出回答。这种系统的好处是回答更准确、能用上最新信息,但缺点也很明显:如果外部数据库里被混入了“有毒资料”(比如故意写“北京明天暴雨”的假信息),RAG就可能被骗,输出错误答案。原创 2025-09-30 08:17:37 · 823 阅读 · 0 评论
分享