最近整理一下聚类相关的东西;
数据说明
- 凸集:在欧氏空间中,凸集是对于集合内的每一对点,连接该对点的直线段上的每个点也在该集合内;
- 非凸(non-convex)数据:类比上述可知;
距离&相似度
首先我们要了解衡量对象间差异的方法对象可能是一个值,也可能是序列,聚类的方式的大都通过距离或相似度来衡量,常用距离如下:
对于两个对象的n维指标(x1,x2,….xn)|(y1,y2,…yn);
- 欧几里得距离:要求指标间可比
- 曼哈顿距离
- 切比雪夫距离
- 明氏距离:欧几里得距离的扩展,是多个距离公式的拓展性表述。包括欧几里得距离、曼哈顿距离
- 马氏距离:解决了欧几里得距离在指标度量上的缺陷,基于个指标维度进行标准化后再利用欧几里得公式计算,相当于改进版。
- 向量空间余弦相似度
- 皮尔逊相关系数
- Jaccard相似系数:基于两者指标中相同的个数的比例
- 调整余弦相似度:为了衡量每个维数值的差异,通过各个维度上的数值都减去均值,修正差异,当然需结合实际,进行减各维度的均值需保证可加减,属同一属性。
- 其中距离与余弦相似度的区别在于余弦相似度体现的是空间方向上的差距,距离体现的是绝对距离。距离能够体现个体数值特征的绝对差异,从维度的数值大小体现差异,受度量标准的影响;余弦相似度对绝对的数值不敏感,更多用来体现用户兴趣的相似度和差异,同时修正了