机器学习分类与聚类的实用考量
1. 训练数据的选择
在机器学习中,训练数据的选择至关重要。假设在周二模型获取了新的标记数据并成功阻止了攻击,周三攻击者发现被阻止后放弃。但下周三,由于过去七天内没有该攻击的示例,模型可能无法有效阻止攻击,若攻击者发现漏洞,整个攻击循环将再次上演。
这表明某些训练数据的选择可能会出现问题,我们需要权衡数据新鲜度、历史鲁棒性和系统容量之间的取舍,以找到最适合需求的解决方案。
2. 特征选择
在高效的机器学习基础设施中,大部分时间和精力会花在特征工程上,即找出可用于识别攻击的信号,并将其构建到训练和评分管道中。为了充分利用精力,应仅使用具有高区分能力的特征,每个特征的添加都应显著改善模型。
2.1 冗余特征的问题
冗余特征不仅需要额外的精力来构建和维护,还会损害模型质量。如果特征数量大于数据点数量,模型会过拟合,因为有足够的模型参数可以拟合所有训练数据。此外,高度相关的特征会导致模型决策不稳定。例如,“昨日登录次数”和“最近两天登录次数”这两个特征,信息会被任意分割,模型可能无法学习到它们的重要性。
2.2 解决特征相关性问题
可以通过计算特征之间的协方差矩阵,将高度相关的特征合并(或投影到正交空间)来解决特征相关性问题。例如,用“前天登录次数”替代“最近两天登录次数”。
2.3 特征选择技术
以下是一些解决特征选择问题的技术:
- 基于模型的重要性排序 :逻辑回归、支持向量机(SVM)、决策树/森林等有确定相对特征重要性的方法,可保留重要性最高的特征。
超级会员免费看
订阅专栏 解锁全文
35

被折叠的 条评论
为什么被折叠?



