
编者按
深度学习模型应用广泛,但其自身有一定的“脆弱性”,即模型输入的微小改动,在不影响人判断的情况下,可能使模型的输出出错,这个过程被称为对模型的对抗攻击。针对对抗攻击的研究,早期集中在图像领域,近几年,文本领域也逐渐增多。2019年,百分点从业务实际出发,与北京市科学技术委员会联合主办了数据智能创新应用(DIAC)大赛,聚焦于智能问答中的语义等价问题的对抗攻击。经过一个多月的研究实践,参赛队伍对该任务做了富有成效的探索,在优胜队伍的方案中,数据增强、对抗样本纠错、使用Focal Loss损失函数和基于FGM的对抗训练成为行之有效的策略。
本文作者:陈旭
一、对抗攻击概述
随着近些年深度学习的快速发展,深度神经网络逐渐成为机器学习领域的主流模型,被广泛应用于计算机视觉、自然语言处理等领域,但在研究与应用的同时,人们渐渐发现,深度神经网络具有一定的“脆弱性”。比如,在图像识别中,对模型的输入也就是图像像素值做轻微扰动,这种扰动不会改变图像的实际分类,人也难以觉察,却可能导致模型对图像的分类出错;或者在一段文本的情感分析中,文本中有一个字写错,这个错误不影响人的理解,也不会改变人对这段文本的情感判断,模型却可能判断出错。这类错误一方面会降低人们对系统使用体验的好感度,另一方面可能会造成严重的后果,从而也限制了深度神经网络在一些安全要求很高的场景下的应用。
近几年,人们开始对这一问题展开研究。如前文例子那样,人们精心设计一些样本,模型却判断出错,这个过程就是对抗攻击,这些样本就是对抗样本。通过研究对抗攻击以及相应的防御策略,有助于提高神经网络的鲁棒性和可解释性。
二、文本对抗攻击的主要方法
深度神经网络对抗攻击的研究最早在图像领域展开,现在在文本领域也有了一些相关研究。针对文本的对抗攻击,从不同的角度有不同的分类,常见的有:根据构造对抗样本时基于的信息分为白盒攻击和黑盒攻击;根据错误的输出是否是某个特定的结果,分为定向攻击和非定向攻击;根据改动文本的类型,分为基于字、词和句子的对抗攻击。这里我们主要介绍一下第一种分类。
2.1 白盒攻击
白盒攻击,是指在构造对抗样本的时候,有所要攻击的模型的知识,如模型的结构、参数、权重等。属于白盒攻击的攻击方式有很多种,这里举例介绍其中一种:基于FGSM的方法。例如,对于一个输入样本,一种方法是计算模型的损失对输入向量(对于文本来说,输入向量一般是文本的字向量或词向量)的梯度,然后将梯度量纲最大的维度所属的字定义为“热字”,包含足够多热字并且出现频繁的短语被定义为热短语。然后基于热短语,进行增删改,生成对抗样本。
2.2 黑盒攻击
黑盒攻击与白盒攻击相反,在构造对抗样本的时候,没有所要攻击的模型的知识。如果这个模型能被攻击者使用,则攻击者可以通过不断尝试,修改模型输入,观察模型输出来构造对抗样本。
如果不具备上述条
智能问答对抗攻击与防御

本文探讨了深度学习模型在智能问答中面临的对抗攻击问题,介绍了文本领域对抗攻击的主要方法,包括白盒攻击和黑盒攻击,并分享了DIAC大赛中优胜队伍的防御策略,如数据增强、智能纠错、使用FocalLoss和基于FGM的对抗训练。
最低0.47元/天 解锁文章
18万+

被折叠的 条评论
为什么被折叠?



