层次分析属于聚类分析的一种,Scipy有这方面的封装包。
linkage函数从字面意思是链接,层次分析就是不断链接的过程,最终从n条数据,经过不断链接,最终聚合成一类,算法就此停止。
dendrogram是用来绘制树形图的函数。
from scipy.cluster.hierarchy import linkage, dendrogram
import matplotlib.pyplot as plt
import pandas as pd
seeds_df = pd.read_csv('seeds-less-rows.csv') #网络上可以下载到
seeds_df.head()
#移除文本数据列
varieties = list(seeds_df.pop('grain_variety'))
varieties
</