摘要
本文结合作者在视频推荐上的使用经验,讨论KMeans算法在视频聚类中的应用。包括的内容有,聚类问题描述、KMeans算法原理、聚类结果举例、Spark KMeans算法性能瓶颈。聚类先要完成特征提取,作者用视频标签和Word2vec两种方式实现过特征提取,这部分将另起一篇文章分享。
聚类问题描述
聚类问题是将N个物品,划分为K个类别,并让这种划分整体上“误差”最小(下文均已视频聚类为例)。所以,这里的关键是“误差”如何定义?如何量化?
首先,应该以某种方式提取出视频的特征(基于内容属性或基于购买历史等),将每个视频表示为一个数值向量。然后,两个视频之间就可以跟数值向量一样,去定义距离、相似度等。
对聚类误差一种常见的度量方式是,1、对每个类别的所属视频进行平均,定义为这个类的中心,2、单个视频的聚类误差,是这个视频距它所在类别的中心的距离,3、所以视频的这种误差求和,即为聚类的整体误差。聚类问题的目标,是将整体误差最小化或者降低到可以接受的程度。
KMeans算法原理
(格式问题没解决,下面贴个图片)
KMeans算法步骤如下:
0、提取视频特征,将在另一篇文章中介绍
1、随机初始化,即从到中随机选出K个点,作为K个类别的中心点。
2、基于现有中心点更新分类,更

本文探讨了KMeans算法在视频聚类中的应用,包括算法原理、聚类效果以及Spark KMeans的性能瓶颈。通过视频标签和Word2vec进行特征提取,实现了对视频的有效分类。然而,Spark KMeans的性能受限于聚类数量和特征维度,降维处理能有效缓解这一问题。
最低0.47元/天 解锁文章
1943





