8、训练数据集是否仍具相关性？

最新推荐文章于 2025-11-25 12:20:36 发布

职场萌新987

最新推荐文章于 2025-11-25 12:20:36 发布

阅读量13

点赞数

CC 4.0 BY-SA版权

分类专栏：工程安全软件的新前沿文章标签：安卓恶意软件检测机器学习训练数据集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/go5gopher/article/details/154277606

工程安全软件的新前沿专栏收录该内容

27 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

训练数据集是否仍具相关性？

1. 研究背景

如今，安卓移动平台已成为最受欢迎的平台，仅官方谷歌应用商店就有数十万款应用，下载量超过数十亿次。然而，随着其受欢迎程度的增加，针对该平台的恶意软件（即恶意软件）也日益增多。研究表明，平均而言，安卓恶意软件在被安全研究人员发现之前，可能在长达3个月的时间内未被察觉，这使得用户在此期间处于易受攻击的状态。为了缩小这3个月的检测差距，安全研究人员不断提出新的恶意软件检测技术，其中包括基于机器学习的方法。

2. 机器学习基础

特征与算法 ：机器学习是指通过示例数据或过去的经验对计算机进行编程，以优化性能标准。常见的学习方法是监督学习，在这种方法中，计算机首先通过训练数据进行学习。训练数据由特征向量组成，每个特征向量都与一个标签相关联，例如，在我们的案例中，已知为恶意的应用（恶意软件类）或良性的应用（良性软件类）。运行学习算法后，将输出与目标输出进行比较，并根据误差的大小校正学习参数。为了将应用分类为恶意软件和良性软件类，该方法必须定义一个相关度量和一个判别函数。安卓恶意软件检测的文献中包含了各种特征示例，如字节码的n - 元组、API使用情况、应用权限使用等。也存在多种分类算法，包括支持向量机（SVM）、随机森林集成决策树算法、RIPPER规则学习算法和基于树的C4.5算法。
工作示例 ：为了研究历史在训练和测试数据集选择中的重要性，我们使用静态分析安卓应用的字节码，提取程序控制流图（CFG）的抽象表示。通过特定方法将CFG表示为字符串，该字符串保留了代码结构的信息，但丢弃了变量名或寄存器号等低级细节。从应用的抽象CFG中收集所

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。