【算法应用】KMeans算法在视频聚类中的应用

本文探讨了KMeans算法在视频聚类中的应用,包括算法原理、聚类效果以及Spark KMeans的性能瓶颈。通过视频标签和Word2vec进行特征提取,实现了对视频的有效分类。然而,Spark KMeans的性能受限于聚类数量和特征维度,降维处理能有效缓解这一问题。

摘要

本文结合作者在视频推荐上的使用经验,讨论KMeans算法在视频聚类中的应用。包括的内容有,聚类问题描述、KMeans算法原理、聚类结果举例、Spark KMeans算法性能瓶颈。聚类先要完成特征提取,作者用视频标签和Word2vec两种方式实现过特征提取,这部分将另起一篇文章分享。

聚类问题描述

聚类问题是将N个物品,划分为K个类别,并让这种划分整体上“误差”最小(下文均已视频聚类为例)。所以,这里的关键是“误差”如何定义?如何量化?

首先,应该以某种方式提取出视频的特征(基于内容属性或基于购买历史等),将每个视频表示为一个数值向量。然后,两个视频之间就可以跟数值向量一样,去定义距离、相似度等。

对聚类误差一种常见的度量方式是,1、对每个类别的所属视频进行平均,定义为这个类的中心,2、单个视频的聚类误差,是这个视频距它所在类别的中心的距离,3、所以视频的这种误差求和,即为聚类的整体误差。聚类问题的目标,是将整体误差最小化或者降低到可以接受的程度。

KMeans算法原理

(格式问题没解决,下面贴个图片)
这里写图片描述

KMeans算法步骤如下:

0、提取视频特征,将在另一篇文章中介绍

1、随机初始化,即从到中随机选出K个点,作为K个类别的中心点。

2、基于现有中心点更新分类,更

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值