机器学习的过程中,不仅要评估一个模型,也需要评估样本间的距离。特征用向量表示,则特征的相似性由向量的相似性而来,向量的相似性用余弦相似度表示。余弦相似度取值为[-1,1],为了得到类似于距离的表示,用1减去余弦相似度即为余弦距离,余弦距离取值为[0,2]。
一个严格定义的距离应满足正定性,对称性和三角不等式这三条距离公理,余弦距离不满足三角不等式,不是一个严格定义的距离。
文本、图像、视频等领域,研究对象的特征维度往往很高,余弦相似度在高维情况下仍保持“相同为1,正交为0,相反为-1”的性质;而欧氏距离则受维度影响,范围不固定,在特征空间中往往非常之大。总体来说,欧氏距离体现在数值上的绝对差异,余弦距离体现方向上的相对差异。比如在视频观看的活跃度上,应采用欧式距离关注数值的绝对差异;而在视频观看的偏好度上,应采用余弦距离关注方向的相对差异。