机器学习在Windows环境恶意软件检测与假新闻检测中的应用
1. Windows环境恶意软件检测
1.1 数据集
恶意软件检测使用的数据集来自Kaggle,该数据集由西班牙安全公司VirusShare基于云服务整理。数据集包含54个可移植可执行(PE)二进制文件的特征,这些特征值为整数和浮点值,以适应机器学习算法。数据集在恶意样本方面存在不平衡情况。使用Scikit库将数据集按75%用于训练、25%用于测试。通过Extra Tree Classifier方法,基于Gini指数从54个特征中选择14个重要的区分特征,这些特征包括Machine、SizeOfOptionalHeader等。
| 特征选择方法 | 选择特征数量 | 具体特征 |
|---|---|---|
| Extra Tree Classifier | 14 | Machine, SizeOfOptionalHeader, Characteristics, MajorLinkerVersion, ImageBase, MajorSubsystemVersion, CheckSumSubsystem, DllCharacteristics, SizeOfStackReserve, SectionsNb, SectionsMaxEntropy, ResourcesMinEntropy, ResourcesMaxEntropy, VersionInformationSize |
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



