
数据挖掘
文章平均质量分 88
UnknownFlower
这个作者很懒,什么都没留下…
展开
-
数据挖掘笔记(三)
数据挖掘-聚类聚类是一种将一组观察值划分为不同子集且子集中的元素都有相似特征的方法。与分类不同的是聚类是一种无监督的方法。距离指标(Distance Metrics)欧氏距离(Euclidean Distance)几何距离曼哈顿距离(Manhattan Distance)绝对轴距总和马氏距离(Mahalanobis Distance)可以看作是欧氏距离的一种修正,修正了欧式距离中各个维度尺度不一致且相关的问题算法K-Means(K均值)Sequential Leader(序列数据)Affi原创 2021-02-15 17:30:38 · 302 阅读 · 0 评论 -
工控协议数据处理(三):Python聚类
网络协议有数百种,我们通过Kmeans方法针对协议层数和协议平均长度这两个属性进行聚类,可以发现在Y轴上区分度不大,大多数协议的层数都在8层以内,X轴上也没有明显的区分度,通过绘制聚类效果的折线图,可以确定在聚类为2层的时候效果最好。import numpy as npimport matplotlib.pyplot as pltfrom sklearn.cluster import KMeansimport sklearn.datasets as dsimport matplotlibim原创 2020-12-17 22:07:23 · 364 阅读 · 0 评论 -
工控协议数据处理(一):爬取协议数据和预处理
工控协议数据处理这个专题主要是记录一下自己的大数据作业,我选了工控协议数据作为处理对象,使用Python进行处理,用了BeautifulSoup包爬取数据。使用了Pyshark解析协议数据包。原创 2020-12-14 21:09:14 · 1087 阅读 · 0 评论 -
数据挖掘笔记(一)-清华大学-数据挖掘:理论与算法
这里写自定义目录标题#数据挖掘笔记(一)本笔记在学习“清华大学-数据挖掘:理论与算法”时记录数据储量急剧增加,在2000年后数据发生了从模拟到数字的显著转变。同时,算力也在大幅度增长。数据挖掘相关的顶级会议:International Conference on Data MiningInternational Conference on Data EngineeringInternational Conference on Machine LearningInternational原创 2020-11-23 18:54:16 · 604 阅读 · 0 评论