机器学习在恶意软件进化检测中的应用
1. 引言
恶意软件不断进化,给安全领域带来了巨大挑战。机器学习技术为检测恶意软件的进化提供了有效的手段。本文将介绍几种用于恶意软件进化检测的机器学习技术,包括逻辑回归、隐马尔可夫模型(HMM)、HMM2Vec和Word2Vec,并展示相关实验结果。
2. 相关技术原理
2.1 HMM2Vec编码
HMM2Vec编码源自训练好的隐马尔可夫模型(HMM),能提供字母对之间相似性的有用信息。通过训练具有特定隐藏状态数N的HMM,可获得任意维度的向量编码。在实验中,模型基于操作码(opcodes)进行训练,因此嵌入是相对于单个操作码的。
2.2 逻辑回归
逻辑回归广泛用于分类问题,它依赖于Sigmoid函数(也称为逻辑函数)。Sigmoid函数的定义为:
[S(x) = \frac{1}{1 + e^{-x}}]
逻辑回归可视为线性回归的改进,它将概率转换到0到1的范围内,而线性回归的预测是无界的。Sigmoid函数的图像表明其输出必须在0到1之间。
3. 实验与结果
3.1 逻辑回归实验
将数据划分为重叠的一年时间窗口,滑动长度为一个月。最近一年时间窗口的所有样本设为+1类,当前月的样本设为 -1类,训练逻辑回归模型。通过计算模型权重向量之间的欧几里得距离来衡量模型的相似性,并在时间轴上绘制这些距离。然而,实验结果并不明确,尽管逻辑回归模型在样本分类上具有较高的准确性,但隐藏层的权重似乎未能提供关于恶意软件样本变化的清晰信息。
超级会员免费看
订阅专栏 解锁全文
39

被折叠的 条评论
为什么被折叠?



