机器学习在恶意软件分析与检测中的应用
1. 朴素贝叶斯分类器的问题与改进
朴素贝叶斯分类器存在一些问题。尤其是当特征向量较长时,乘积计算中的分子最终可能为零,导致概率为零。为解决此类问题,朴素贝叶斯的多种变体对每个特征值的分布方式做出了不同假设。例如,高斯朴素贝叶斯假设特征值符合正态分布,其均值和标准差通过训练数据中特征的观测值计算得出。
2. 机器学习模型的评估
2.1 评估指标概述
训练完模型后,我们需要了解其性能。研究人员开发了多种评估机器学习模型的指标,这里主要讨论用于二分类器的几个重要指标。为使评估结果有意义,应使用训练数据中未出现的样本计算这些指标。一个大的、随机抽样的评估集对于了解分类器的优缺点至关重要。评估集应包含单个样本及其标签,评估时通常需考虑以下几种情况:
- 真正例(TPs):分类器预测为恶意软件且实际被标记为恶意软件的应用。
- 假正例(FPs):分类器预测为恶意软件但实际被标记为良性软件的应用。
- 真反例(TNs):分类器预测为良性软件且实际被标记为良性软件的应用。
- 假反例(FNs):分类器预测为良性软件但实际被标记为恶意软件的应用。
过多的假正例或假反例表明分类器性能不佳,以下是一些重要的统计指标及其在“良性软件与安卓银行木马”数据集上的示例结果:
| 数据集 | 分类器 | 准确率 | 精确率 | 召回率 | F1 分数 | AUC |
|---|
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



