机器学习中的异常检测与支持向量机优化
在机器学习领域,异常检测和支持向量机(SVM)是两个重要的研究方向。本文将介绍异常检测的相关算法和数据集,以及如何通过Shogun的多核学习提高支持向量机的准确性。
异常检测算法与数据集
- 异常检测算法
- 隔离森林(Isolation Forest) :该算法通过构建二叉树将实例划分为两个子节点(Tl, Tr),测试包含属性q和分割值p(q < p),将实例划分到Tl和Tr中,在入侵识别方面有很好的应用前景。
- K - 均值聚类(K - means clustering) :这是一种无监督算法,将数据集划分为k个子组(聚类),表示为C1, C2, …, Ck,k是预定义参数。该算法用于模式识别、聚类分析和异常检测。通过最小化数据与相应子组之间距离的平方和来创建聚类。确定合适的k值比较困难,可使用试错法,也可以用肘部法则(elbow method)或轮廓系数法(silhouette score)来确定最优的k值,但轮廓系数法计算量较大。
- 数据集描述
- 数据集D1 :Kaggle上的开源数据集“HOUSEHOLD ELECTRIC POWER CONSUMPTION”,是一个多元时间序列数据集,包含2,075,259个数据点,时间跨度从2006年12月到2010年11月,包含日期、家庭全局分钟平均有功功率、时间、电压、无功功率
超级会员免费看
订阅专栏 解锁全文
3849

被折叠的 条评论
为什么被折叠?



