http日志聚类分析8.25

本文探讨了在面对复杂HTTP日志数据时如何提取特征变量,包括依赖专家知识或研究文献来确定特征。接着介绍了数据预处理步骤,如归一化和处理缺失值。最后,讨论了使用不同聚类算法(如BIRCH、DBSCAN、K-MEANS、MEAN-SHIFT)结合特征权重检测异常点的方法及其效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

实际上遇到数据的时候,数据很可能是非常隐晦的,很难看出来想表达出来什么,像列表那样的数据其实已经是一目了然的很清晰的数据了,但是如果是碰到类似于下图所示的数据时,我们就要想办法提取出一些特征变量了。

 1.提取特征变量

根据题目要求,提取出一些特征变量,提取这些特征变量的方法有两个,第一就是找一个从业三十多年的专家,他说哪个是特征变量,咱就如醍醐灌顶一样立马提取这些特征变量,另一个就是根据平时积累的知识,或者看一些期刊、论文去提取出这些特征变量。提取出的特征变量如下图所示

 对应的数量列是这样的:

2.处理特征数据

 提取完数据之后,对这些数据进行归一化,但是有些列的数据大的太大,小的太小,所以我们不妨可以将前几十个最大的数字给去掉,然后再算归一化的值,end_value=now_value/(maxx-minn),有大于1的数据也没什么关系。最后处理一下缺失值,删掉有缺失值的样本或者删掉某一列特征就可以。

3.运用聚类算法检查一下异常点

聚类算法有很多种,常见的是BIRCH、DBSCAN、K-MEANS、MEAN--SHIFT,然后由于特征之间的重要性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值