数据挖掘与分析实战:从聚类到热点分析
1. 聚类分析
聚类分析是将数据对象分组为多个类或簇的过程,使得同一簇中的对象具有较高的相似度,而不同簇中的对象具有较高的相异度。常见的聚类算法有 k-means 聚类、层次聚类和 DBSCAN 聚类等。
1.1 k-means 聚类
k-means 聚类是一种基于划分的聚类算法,其基本思想是通过迭代的方式将数据点分配到不同的簇中,并更新簇的中心,直到簇的中心不再发生变化或达到最大迭代次数。以下是实现 k-means 聚类的具体步骤:
1. 加载数据 :使用 pandas 读取 Iris 数据集。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import silhouette_score
from scipy.spatial.distance import cdist
iris = pd.read_csv('iris_data.csv', header=None)
iris.columns = ['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm', 'species']
- 分离特征和标签 :将特征和标签分离,以便进行无监督学习。
超级会员免费看
订阅专栏 解锁全文
1264

被折叠的 条评论
为什么被折叠?



