BERT与机器学习在恶意软件分类及进化检测中的应用
1. 神经网络基础与多层感知机
在探讨恶意软件分类之前,先了解一下神经网络的基本组成部分——神经元。神经元的激活与否由权重和输入共同决定。若 $\sum w_iX_i$ 的值大于阈值 $T$,神经元就会被激活。多层感知机(MLP)的神经元所使用的函数如公式 2 所示,同时在训练 MLP 时还会引入并更新一个独立的偏置 $b$。
[f (x, y) = \sum_{i=0}^{(n -1)}w_iX_i + b]
在二元分类的情况下,如果公式 2 产生正值,则将输入分类为类别 1;若产生负值,则分类为类别 2。二元分类器的决策边界由公式 3 表示,它能在输出维度空间中将输入划分为两个类别。
[f (x, y) = w_0x + w_1y + b]
MLP 由多层感知机组成,通常包含多个隐藏层。MLP 的每条边都关联一个权重,这些权重的最终值在训练阶段确定。
2. 恶意软件分类实验
2.1 数据集
本次实验使用的恶意软件数据集包含多个家族,具体信息如下表所示:
| 恶意软件家族 | 恶意软件类型 | 样本数量 |
| — | — | — |
| CeeInject | VirTool | 899 |
| FakeRean | Rogue | 899 |
| OnlineGames | 密码窃取器 | 900 |
| Winwebsec | Rogue | 897 |
| Renos | 特洛伊下载器 | 900 |
下面简要介绍每个恶意软件家族的特点:
-
超级会员免费看
订阅专栏 解锁全文
1116

被折叠的 条评论
为什么被折叠?



