基于URLGAN的恶意URL检测技术解析
1. GAN BERT模块
在恶意URL检测中,为了获取更深入、更本质的分层语义特征,我们需要对URL的向量X进行处理。GAN BERT主要负责处理真实分层语义特征rf和生成的相似分层语义特征gf。
- 真实语义特征提取 :
- 使用BERT网络提取真实语义特征,该网络由l个隐藏层组成,每个隐藏层包含多头注意力函数和前馈函数两个子层。
- 多头注意力函数用于对输入X的每个单词进行不同节点信息的空间融合,由h个不同的自注意力结果组成。其公式如下:
- (M = Concat ( head 1, \cdots, head h)W O)
- (head i = Attention (XW Q_i, XW K_i, XW V_i))
- (Attention (Q, K, V ) = SoftMax(\frac{QK^T}{\sqrt{d_k}})V)
- 前馈函数主要提供非线性变换,增强单词间的变异性,公式为:
- (FFN(X) = max (0, XW1 + b1) W2 + b2)
- 每个子层都有残差连接,子层输出表示为:
- (X_{i+1} = f_{ln}(X_i + (f_{sn}(X_i))))
- 最终语义特征通过以下公式获得:
- (rf = X_{2l+1})
- 相似语义特征生成 :
- 生成对抗网络(GAN)是一种深度学习模型,通过生成器G和判别器D相互学习来生成较好的输出。
- 生成器G的目的是将随机噪声映射为相似实例,即不同类别恶
超级会员免费看
订阅专栏 解锁全文
40

被折叠的 条评论
为什么被折叠?



