好久没更新论文阅读进展了,这次的论文是:Concept drift and cross-device behavior: Challenges and implications for effective android malware detection
2022年CCF B Computers & Security的,作者为Department of Software Science, Tallinn University of Technology, Estonia的 Alejandro Guerra-Manzanares
这个作者在概念偏移与时间序列上做了不少文章,我们从较早的这篇开始。
恶意软件概念偏移是指恶意软件在不断变化和进化,导致传统的安全检测和防御手段难以有效应对。
当然从我的角度理解可以理解为同一个恶意软件或者同一个恶意软件家族,其恶意特征随着时间改变会发生改变,这就会导致学习到先前恶意软件特征的恶意软件分类模型因为该恶意软件或者恶意软件家族特征的改变导致模型性能下降。
这篇论文主要探讨了在Android恶意软件检测中,概念漂移(concept drift)和跨设备行为(cross-device behavior)所带来的挑战和影响。
概念漂移模型:研究者们模拟了Android恶意软件检测中的概念漂移问题,涵盖了2011年至2018年间的数据,并使用动态特征集(即系统调用)来自Android应用。
时间戳选择方法:论文评估并比较了不同的时间戳选择方法,并指出了文献中广泛使用的时间戳方法随时间推移会导致结果变差,而使用应用内部时间戳可以改善概念漂移处理。
数据源的影响:研究揭示了不同数据源(如模拟器和真实设备)对概念漂移建模的影响,发现从不同数据源获得的动态特征存在显著差异,可能会扭曲建模结果。
跨设备行为:论文强调了在创建训练和测试数据集时,应考虑数据源,并尽量避免数据源融合。
全局解释方法:通过全局解释方法支持分析,从数据源的角度理解Android应用多年来的演变。
实验结果:实验结果表明,使用应用内部时间戳相比于文献中广泛使用的时间戳方法,可以更好地处理概念漂移,并提高检测性能。
总结起来就是:时间,设备,来源这些都会影响数据对于概念偏移的影响。
他其中有一些比较有意思的思路我觉得可以记录下来:
1特征冗余去除:提取出特征后,作者给出一个观点是如果某个特征绝大多数样本都有(80-90),他认为这个特征是普遍的,所以是冗余可以去除,这样减少部分特征捕获的开销。这个思路我觉得有意思,因为某个特征大家都没有与大家都有一样,会显得没那么重要,因为这可能是一个普遍现象。
2时间与概念偏移的关系,这个研究其实也侧面证明了概念偏移与时间确实是正相关的,当然这个时间戳的选择也会影响到概念偏移的情况。