8、机器学习分类与聚类的实用考量

最新推荐文章于 2026-01-09 11:22:02 发布

原创最新推荐文章于 2026-01-09 11:22:02 发布 · 18 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #分类 #聚类

机器学习赋能网络安全专栏收录该内容

33 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习分类与聚类的实用考量

1. 训练数据的选择

在机器学习中，训练数据的选择至关重要。假设在周二模型获取了新的标记数据并成功阻止了攻击，周三攻击者发现被阻止后放弃。但下周三，由于过去七天内没有该攻击的示例，模型可能无法有效阻止攻击，若攻击者发现漏洞，整个攻击循环将再次上演。

这表明某些训练数据的选择可能会出现问题，我们需要权衡数据新鲜度、历史鲁棒性和系统容量之间的取舍，以找到最适合需求的解决方案。

2. 特征选择

在高效的机器学习基础设施中，大部分时间和精力会花在特征工程上，即找出可用于识别攻击的信号，并将其构建到训练和评分管道中。为了充分利用精力，应仅使用具有高区分能力的特征，每个特征的添加都应显著改善模型。

2.1 冗余特征的问题

冗余特征不仅需要额外的精力来构建和维护，还会损害模型质量。如果特征数量大于数据点数量，模型会过拟合，因为有足够的模型参数可以拟合所有训练数据。此外，高度相关的特征会导致模型决策不稳定。例如，“昨日登录次数”和“最近两天登录次数”这两个特征，信息会被任意分割，模型可能无法学习到它们的重要性。

2.2 解决特征相关性问题

可以通过计算特征之间的协方差矩阵，将高度相关的特征合并（或投影到正交空间）来解决特征相关性问题。例如，用“前天登录次数”替代“最近两天登录次数”。

2.3 特征选择技术

以下是一些解决特征选择问题的技术：
- 基于模型的重要性排序 ：逻辑回归、支持向量机（SVM）、决策树/森林等有确定相对特征重要性的方法，可保留重要性最高的特征。

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。