聚类算法在MNIST数据集上的应用与评估
1. 评估聚类结果
为了演示k-means算法的工作原理以及增加簇数量如何使簇更加同质,我们定义一个函数来分析每次实验的结果。聚类算法生成的簇分配将存储在一个名为 clusterDF 的Pandas DataFrame中。以下是具体步骤:
1. 统计每个簇中的观测数量 :
def analyzeCluster(clusterDF, labelsDF):
countByCluster = \
pd.DataFrame(data=clusterDF['cluster'].value_counts())
countByCluster.reset_index(inplace=True,drop=False)
countByCluster.columns = ['cluster','clusterCount']
- 合并簇分配和真实标签 :
preds = pd.concat([labelsDF,clusterDF], axis=1)
preds.columns = ['trueLabel','cluster']
- 统计每个真实标签的观测数量 :
超级会员免费看
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



