聚类DBSCAN学生月上网时间分布聚类实例

最新推荐文章于 2024-07-13 10:07:17 发布

weixin_38432968

最新推荐文章于 2024-07-13 10:07:17 发布

阅读量1k

点赞数

分类专栏： python机器学习文章标签：机器学习 python 聚类

本文链接：https://blog.youkuaiyun.com/weixin_38432968/article/details/104452062

版权

python机器学习专栏收录该内容

9 篇文章

订阅专栏

本文通过Python机器学习库sklearn实现DBSCAN聚类算法，对网络使用数据进行聚类分析，详细展示了数据预处理、模型训练、结果评估及可视化过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于《Python机器学习》——北京理工大学学习笔记

import numpy as np                          #引入相关工程包
import sklearn.cluster as skc
from sklearn import metrics
import matplotlib.pyplot as plt
 
 
mac2id=dict()                                                                    
onlinetimes=[]
f=open('TestData.txt',encoding='utf-8')             #加载数据
for line in f:                                
    mac=line.split(',')[2]
    onlinetime=int(line.split(',')[6])
    starttime=int(line.split(',')[4].split(' ')[1].split(':')[0])        #读取每条数据的MAC地址，开始上网时间，上网时长
    if mac not in mac2id:
        mac2id[mac]=len(onlinetimes)         
        onlinetimes.append((starttime,onlinetime))
    else:
        onlinetimes[mac2id[mac]]=[(starttime,onlinetime)]
real_X=np.array(onlinetimes).reshape((-1,2))            #形成一个二维矩阵
 
X=real_X[:,0:1]              #提取每行第一列元素
 
db=skc.DBSCAN(eps=0.01,min_samples=20).fit(X)     #调用DBSCAN进行训练，labels为每个簇的标签  
labels = db.labels_
 
print('Labels:')                                             #打印数据被记上的标签，噪声数据的标签为-1
print(labels)
raito=len(labels[labels[:] == -1]) / len(labels)            #计算标签为-1的比例，即噪声数据比例
print('Noise raito:',format(raito, '.2%'))
 
n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)         #簇的个数
 
print('Estimated number of clusters: %d' % n_clusters_)         
print("Silhouette Coefficient: %0.3f"% metrics.silhouette_score(X, labels))   # 打印聚类效果
 
for i in range(n_clusters_):                          #打印簇类标号以及各簇数据
    print('Cluster ',i,':')
    print(list(X[labels == i].flatten()))
     
plt.hist(X,24)
plt.show()

个别函数用法说明：

flatten( ) ：flatten是numpy.ndarray.flatten的一个函数，即返回一个一维数组。flatten只能适用于numpy对象，即array或者mat，普通的list列表不适用。例如：

a.flatten()：按默认方向降维
a.flatten(‘F’)：按列方向降维
a.flatten(‘A’)：按行方向降维