8、运行中恶意软件在产生危害前的检测研究

运行中恶意软件在产生危害前的检测研究

1. 特征选择与数据准备

在进行特征选择时,计算所有特征之间的相关矩阵需要大量的计算资源和时间,这在实际操作中是不可行的。因此,我们采用信息增益(IG)的方法,分别选择了5000、10000、15000和30000个特征。同时,使用相关性特征选择(CFS)方法,该方法会不断向特征集中添加特征,直到特征集的优点不再增加为止。最后,我们使用IG选择与CFS相同数量的特征,以便直接比较这两种特征选择方法的性能。

特征选择完成后,我们创建用于训练机器学习模型的数据。具体来说,生成一个表格,表格的每一行代表某个样本的特征集中各特征所取的值。若特征(内存访问n - 元组)由样本生成,则记为1;否则记为0。

2. 机器学习方法与评估指标

我们使用Weka机器学习工具包来构建和评估模型。选择了以下几种机器学习方法:k - 最近邻(kNN)、随机森林(RF)、决策树(J48)、支持向量机(SVM)、朴素贝叶斯(NB)和人工神经网络(ANN),并使用Weka的默认参数。

为了评估模型的质量,采用5折交叉验证的方法,并选择以下评估指标:准确率(ACC),即正确识别的样本数量;F1 - 度量(F1M),综合考虑了精确率和召回率。由于误报率在多分类问题中不具有代表性,因此不使用该指标。F1M值采用加权平均的方式计算。

在处理多分类问题时,数据集存在类别不平衡的问题。简单地猜测多数类会导致准确率虚高,无法反映模型的真实性能。为了解决这个问题,我们为样本分配权重,使得每个类别的样本权重之和相等。

3. 实验设置
3.1 数据集

由于Windo

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值