【Paper Reading】Early prediction of the future popularity of uploaded videos

该论文提出了一种针对YouTube视频冷启动问题的方法,通过特征工程在视频上传时预测未来1到9周的流行度。特征选取涉及3个角度,包括相关video、作者和关键词,共36个特征。实验使用了多种分类器并进行集成,尽管缺少原理分析和对比,但为视频推荐提供了新的视角。

论文链接:https://sci-hub.tw/10.1016/j.eswa.2019.05.015

文章是针对youtube视频推荐冷启动问题提出的方法,在视频发布时刻预测未来1~9周时刻的流行度。论文主要内容在于特征的特征工程。

由于论文比较简单,下面不会对论文进行详细翻译,只说明其重要思想。

精读指数:建议粗读

先进指数:一个工程型方法

总体评价:像一个实验报告,缺少原理分析,缺少baseline对比,应用结果不突出。

贡献

声称是第一个冷启动视频推荐方法。

 

特征工程

特征的选取一共从3个角度考虑:3个方面 x 3种相关性计算方法 x 4种交互数据 = 36个特征

数据集的获取则是从seed video出发,分时间段收集其相关的video信息,数据量大小和k的设定有关。

3个方面

3种收集相关video的方式——RV AU KW 

RV:相关video(从相关性推荐出来的video)

AU:同一作者

KW:关键词是从title、tag、description中提取的r个word,用tf-idf选(词频 x lg(google总索引数 / google搜索word结果的page数)),在youtube上搜索关键词video

 

video排序方法

计算3个方面的相关性:TL TG DS,选出top k

文本->word vefctor->所有vector组成w-v矩阵,LSA获得更紧凑的vector

 

特征收集

4个:VC AP CM SB,做z-score归一化

 

方法

对naïve Bayes, support vector machine (SVM), logistic regression, neural network, and decision tree (J48)子分类器进行ensenble,Bag-REPTree方法组合子分类器结果。

 

实验

随机选择1000seed video出发(1周后死了100个还剩900个),收集1~9周每周时间节点上的相关video信息。

900seed x 3个方面 x 30个相关视频 x 10周 = 810,000个video

4组实验

实验1 所有feature上对比分类方法准确性

实验2 feature按照属性分为10组,对比feature重要性

实验3 feature选择和组合

实验4 k的选择

 

结论

未来工作

观察其他角度的变量,例如情绪分析、音乐。

扩展其他平台的预测

研究早期趋势预测

 

局限性

只有youtube上音乐类别的视频,未来增加其他类别视频

仅收集10周数据,未来增加时间

模型需要自我调整,进行特征更新(多轮预测)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值