机器学习对抗鲁棒性与可解释性的探索
1. 对抗鲁棒性与随机平滑认证
1.1 对抗训练与可认证防御的需求
对抗训练能产生一个经验上鲁棒的分类器,但无法保证其在某些预定义情况下一定有效,因此需要可认证的防御方法。接下来将探讨如何通过随机平滑来认证模型的鲁棒性。
1.2 随机平滑认证鲁棒性的原理
随机平滑不仅是一种评估方法,更是一种鲁棒性认证方法,同时还能训练出鲁棒的模型。它从基础分类器构建“平滑”分类器,预测类别是具有最高概率的类别,公式如下:
[g(x) = \arg\max_{c\in Y} \mathbb{P}(f(x + \epsilon) = c)]
其中,会对输入的副本应用随机高斯噪声 (\epsilon),(\epsilon\sim\mathcal{N}(0, \sigma^2))。
认证过程通过证明平滑分类器在 (l_2) 半径 (R) 内是鲁棒的来保证结果,公式为:
[R = \sigma\sqrt{2}(\Phi^{-1}(p_a) - \Phi^{-1}(p_b))]
这里,(\Phi^{-1}) 是高斯函数的累积分布函数(CDF),(p_a) 和 (p_b) 分别代表最可能和第二可能类别的概率。半径 (R) 作为一个阈值,用于决定是否对平滑分类器的鲁棒性进行认证。
1.3 训练平滑分类器的步骤
- 初始化参数 :
import numpy as np
import tensorflow a
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



