数据挖掘与分析实战:从聚类到热点分析
1. 聚类分析
1.1 k-means 聚类实现
k-means 聚类是一种常用的无监督学习算法,用于将数据点划分为不同的簇。以下是实现 k-means 聚类的详细步骤:
1. 加载数据 :使用 pandas 读取 Iris 数据集。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import silhouette_score
from scipy.spatial.distance import cdist
iris = pd.read_csv('iris_data.csv', header=None)
iris.columns = ['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm', 'species']
- 分离特征和标签 :将特征和标签分开,以便进行无监督学习。
X = iris[['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm']]
y = iris['species']
超级会员免费看
订阅专栏 解锁全文
1273

被折叠的 条评论
为什么被折叠?



