1.问题:
最近因为用到了无监督聚类,在通过轮廓系数确定最佳类别数后,对判断哪个簇具体属于哪个业务对应的簇出现了一点问题,如果单单通过将每类的中心点进行相加,按得分排序来对应业务,觉得太粗暴,如果做到加权求和的话,就会显的比较合理,但是因为不清楚哪一列的字段属性权重值是多少,所以导致无法进行加权求和,所以这边引入了AHP层次求解各数据字段权重的方法。
2.AHP层次法
这篇文章写的很详细,可以参考一下,https://blog.youkuaiyun.com/mmm_jsw/article/details/84863416。可以得知最后的字段权重就是判断矩阵里最后归一化后的特征向量,不过这个判断矩阵得尽兴一致性检验,验证成立以后,才是符合的结果,且一致性指标CI越接近于0,就越符合一致性,但是注意一点,如果求出的CI是负值的话,是不可行的。就需要重新设置判断矩阵,再重新计算CI值,且CI需<0.1,会认为不一致程度在可以容许的范围内。
3.实践
def aph_weight(x,y,z):
judgment_matrix={'matrix_1':[1, x, 1/y],
'matrix_2':[1/x, 1, 1/z],
'matrix_3':[y, z, 1]}
judgment_matrix=pd.DataFrame(judgment_matrix)
judgment_matrix_=judgment_matrix.copy()
for i in judgment_matrix.columns:
total=judgment_matrix[i].sum()
fun = lambda x:x/total
judgment_matrix[i]=judgment_matrix[i].apply(fun)
feature_vector=judgment_matrix['matrix_1']+judgment_matrix['matrix_2']+judgment_matrix['matrix_3']
feature_vector=pd.DataFrame(feature_vector/feature_vector.sum(),columns=['feature_vector'])
w_matrix=np.mat(feature_vector)
A_matrix=np.mat(judgment_matrix_)
A_w=A_matrix * w_matrix
max_vector=float((A_w[0]/w_matrix[0]+A_w[1]/w_matrix[1]+A_w[2]/w_matrix[2])/3)
ci=(max_vector-3)/(3-1)
cr=ci/0.58
if(cr<0.1):
return w_matrix
else:
return 'Adjustment judgment matrix'