钓鱼攻击中的对抗性采样研究
1. 对抗性采样概述
模拟攻击者基于分类器检测到的现有钓鱼实例生成新的对抗性样本。攻击者假设除唯一的域名外,能完全控制URL和网页内容,且对分类器和特征的了解有限。
2. 数据集定义
使用与相关研究类似的符号,整个数据集由过程 $P : X \to Y$ 生成。实验中定义了合法(L)和钓鱼(P)两种实例类型。每个实例有 $d$ 个特征,用 $d$ 维向量表示,并标记为合法或钓鱼。
实例表示为:$x_i = [x_{1i}, \cdots x_{di}]^T \in X$
数据集 $D$ 包含 $n$ 个样本,记为 $D = {x_i, y_i}_{i = 1}^n$,其中 $y_i \in Y$,$Y \in {0, 1}$。集合 $T$ 是攻击者可访问的 $t$ 个实例的子集,$T \subseteq D$,$t \leq n$。
3. 特征选择与操作
为指定特征子集,引入符号 $\Phi = {0, 1}^d$,每个元素表示对应特征是否被选中(1 表示选中,0 表示未选中)。创建对抗性样本的第一步是选择一个或多个特征进行操作。$\Phi_s$ 表示 $s$ 个特征的所有可能组合集合,$\pi_s^i$ 表示第 $i$ 种特征选择。例如,$\pi_3^1 = (0, 1, 1, 1, 0)$ 表示选择特征 2、3 和 4 进行操作。
形式化表示为:$\pi_s^i \in \Phi_s$,其中 $i \in \binom{n}{s}$ 且 $\sum_{i = 1}^{d} \pi_s^i = s$
定义特征子集后,下一步是分配新的特征值。假设每个特征值可由现有钓
超级会员免费看
订阅专栏 解锁全文
42

被折叠的 条评论
为什么被折叠?



