该问题归类到Transformer架构问题集——训练与优化——损失函数。请参考LLM数学推导——Transformer架构问题集。
1. 问题背景
在人工智能领域不断发展的今天,大语言模型(LLM)凭借强大的语言理解与生成能力,广泛应用于智能问答、文本创作、翻译等场景。然而,这些模型如同脆弱的 “玻璃巨人”,面对精心设计的对抗样本时,表现会出现断崖式下跌。比如在智能客服系统中,攻击者可能通过对正常提问添加微小语义扰动,让模型输出错误答案,这不仅影响用户体验,更在金融、医疗等关键领域埋下安全隐患。
对抗训练作为提升模型鲁棒性的 “利器”,通过引入对抗样本让模型在 “实战演练” 中增强防御能力。而对抗训练损失则是衡量这场 “演练成果” 的核心指标。但在优化过程中,损失函数的剧烈波动会导致训练失控,就像汽车失去方向盘。Lipschitz 连续性约束就如同给损失函数套上 “缰绳”,限制其变化幅度,确保训练稳定收敛,同时让模型面对微小输入变化时,输出变化可控,从而提升鲁棒性与泛化能力。
2. 技术原理与数学理论
2.1 对抗训练基础
对抗训练的灵感源自生成对抗网络(GAN)的 “博弈哲学”,但在对抗训练场景中,“战场” 转移到了模型的鲁棒性提升上。这里有两位 “对手”:主模型(判别器)和攻击模型(生成器)。攻击模型如同 “狡猾的黑客”,针对原始样本 x 和主模型 (
为模型参数),试图找到微小扰动
,在满足
(
限制扰动大小)的条件下,让主模型
输出错误结果。而主模型则像 “防御卫士”,努力在原始样本与对抗样本上都精准预测,通过最小化对抗训练损失来升级自己的 “防御装备”(更新参数) 。
2.2 对抗训练损失定义
常见的对抗训练损失函数是原始样本损失与对抗样本损失的 “加权融合”,公式为

最低0.47元/天 解锁文章
1555

被折叠的 条评论
为什么被折叠?



