【算法应用】KMeans算法在视频聚类中的应用

最新推荐文章于 2025-01-07 23:55:18 发布

原创

最新推荐文章于 2025-01-07 23:55:18 发布 · 7.4k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#视频聚类 #KMeans #KMeans性能瓶颈 #KMeans算法原理 #应用

本文探讨了KMeans算法在视频聚类中的应用，包括算法原理、聚类效果以及Spark KMeans的性能瓶颈。通过视频标签和Word2vec进行特征提取，实现了对视频的有效分类。然而，Spark KMeans的性能受限于聚类数量和特征维度，降维处理能有效缓解这一问题。

摘要

本文结合作者在视频推荐上的使用经验，讨论KMeans算法在视频聚类中的应用。包括的内容有，聚类问题描述、KMeans算法原理、聚类结果举例、Spark KMeans算法性能瓶颈。聚类先要完成特征提取，作者用视频标签和Word2vec两种方式实现过特征提取，这部分将另起一篇文章分享。

聚类问题描述

聚类问题是将N个物品，划分为K个类别，并让这种划分整体上“误差”最小（下文均已视频聚类为例）。所以，这里的关键是“误差”如何定义？如何量化？

首先，应该以某种方式提取出视频的特征（基于内容属性或基于购买历史等），将每个视频表示为一个数值向量。然后，两个视频之间就可以跟数值向量一样，去定义距离、相似度等。

对聚类误差一种常见的度量方式是，1、对每个类别的所属视频进行平均，定义为这个类的中心，2、单个视频的聚类误差，是这个视频距它所在类别的中心的距离，3、所以视频的这种误差求和，即为聚类的整体误差。聚类问题的目标，是将整体误差最小化或者降低到可以接受的程度。

KMeans算法原理

（格式问题没解决，下面贴个图片）
这里写图片描述

KMeans算法步骤如下：

0、提取视频特征，将在另一篇文章中介绍

1、随机初始化，即从到中随机选出K个点，作为K个类别的中心点。

2、基于现有中心点更新分类，更

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。