百分点认知智能实验室出品：智能问答中的对抗攻击及防御策略

智能问答对抗攻击与防御

最新推荐文章于 2025-09-23 09:54:31 发布

原创

最新推荐文章于 2025-09-23 09:54:31 发布 · 474 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

本文探讨了深度学习模型在智能问答中面临的对抗攻击问题，介绍了文本领域对抗攻击的主要方法，包括白盒攻击和黑盒攻击，并分享了DIAC大赛中优胜队伍的防御策略，如数据增强、智能纠错、使用FocalLoss和基于FGM的对抗训练。

编者按

深度学习模型应用广泛，但其自身有一定的“脆弱性”，即模型输入的微小改动，在不影响人判断的情况下，可能使模型的输出出错，这个过程被称为对模型的对抗攻击。针对对抗攻击的研究，早期集中在图像领域，近几年，文本领域也逐渐增多。2019年，百分点从业务实际出发，与北京市科学技术委员会联合主办了数据智能创新应用(DIAC)大赛，聚焦于智能问答中的语义等价问题的对抗攻击。经过一个多月的研究实践，参赛队伍对该任务做了富有成效的探索，在优胜队伍的方案中，数据增强、对抗样本纠错、使用Focal Loss损失函数和基于FGM的对抗训练成为行之有效的策略。

本文作者：陈旭

一、对抗攻击概述

随着近些年深度学习的快速发展，深度神经网络逐渐成为机器学习领域的主流模型，被广泛应用于计算机视觉、自然语言处理等领域，但在研究与应用的同时，人们渐渐发现，深度神经网络具有一定的“脆弱性”。比如，在图像识别中，对模型的输入也就是图像像素值做轻微扰动，这种扰动不会改变图像的实际分类，人也难以觉察，却可能导致模型对图像的分类出错；或者在一段文本的情感分析中，文本中有一个字写错，这个错误不影响人的理解，也不会改变人对这段文本的情感判断，模型却可能判断出错。这类错误一方面会降低人们对系统使用体验的好感度，另一方面可能会造成严重的后果，从而也限制了深度神经网络在一些安全要求很高的场景下的应用。

近几年，人们开始对这一问题展开研究。如前文例子那样，人们精心设计一些样本，模型却判断出错，这个过程就是对抗攻击，这些样本就是对抗样本。通过研究对抗攻击以及相应的防御策略，有助于提高神经网络的鲁棒性和可解释性。

二、文本对抗攻击的主要方法

深度神经网络对抗攻击的研究最早在图像领域展开，现在在文本领域也有了一些相关研究。针对文本的对抗攻击，从不同的角度有不同的分类，常见的有：根据构造对抗样本时基于的信息分为白盒攻击和黑盒攻击；根据错误的输出是否是某个特定的结果，分为定向攻击和非定向攻击；根据改动文本的类型，分为基于字、词和句子的对抗攻击。这里我们主要介绍一下第一种分类。

2.1 白盒攻击

白盒攻击，是指在构造对抗样本的时候，有所要攻击的模型的知识，如模型的结构、参数、权重等。属于白盒攻击的攻击方式有很多种，这里举例介绍其中一种：基于FGSM的方法。例如，对于一个输入样本，一种方法是计算模型的损失对输入向量（对于文本来说，输入向量一般是文本的字向量或词向量）的梯度，然后将梯度量纲最大的维度所属的字定义为“热字”，包含足够多热字并且出现频繁的短语被定义为热短语。然后基于热短语，进行增删改，生成对抗样本。

2.2 黑盒攻击

黑盒攻击与白盒攻击相反，在构造对抗样本的时候，没有所要攻击的模型的知识。如果这个模型能被攻击者使用，则攻击者可以通过不断尝试，修改模型输入，观察模型输出来构造对抗样本。

如果不具备上述条