论文链接:https://sci-hub.tw/10.1016/j.eswa.2019.05.015
文章是针对youtube视频推荐冷启动问题提出的方法,在视频发布时刻预测未来1~9周时刻的流行度。论文主要内容在于特征的特征工程。
由于论文比较简单,下面不会对论文进行详细翻译,只说明其重要思想。
精读指数:建议粗读
先进指数:一个工程型方法
总体评价:像一个实验报告,缺少原理分析,缺少baseline对比,应用结果不突出。
贡献
声称是第一个冷启动视频推荐方法。
特征工程

特征的选取一共从3个角度考虑:3个方面 x 3种相关性计算方法 x 4种交互数据 = 36个特征
数据集的获取则是从seed video出发,分时间段收集其相关的video信息,数据量大小和k的设定有关。
3个方面
3种收集相关video的方式——RV AU KW
RV:相关video(从相关性推荐出来的video)
AU:同一作者
KW:关键词是从title、tag、description中提取的r个word,用tf-idf选(词频 x lg(google总索引数 / google搜索word结果的page数)),在youtube上搜索关键词video
video排序方法
计算3个方面的相关性:TL TG DS,选出top k
文本->word vefctor->所有vector组成w-v矩阵,LSA获得更紧凑的vector
特征收集
4个:VC AP CM SB,做z-score归一化
方法
对naïve Bayes, support vector machine (SVM), logistic regression, neural network, and decision tree (J48)子分类器进行ensenble,Bag-REPTree方法组合子分类器结果。

实验
随机选择1000seed video出发(1周后死了100个还剩900个),收集1~9周每周时间节点上的相关video信息。
900seed x 3个方面 x 30个相关视频 x 10周 = 810,000个video
4组实验
实验1 所有feature上对比分类方法准确性
实验2 feature按照属性分为10组,对比feature重要性
实验3 feature选择和组合
实验4 k的选择
结论
未来工作
观察其他角度的变量,例如情绪分析、音乐。
扩展其他平台的预测
研究早期趋势预测
局限性
只有youtube上音乐类别的视频,未来增加其他类别视频
仅收集10周数据,未来增加时间
模型需要自我调整,进行特征更新(多轮预测)
该论文提出了一种针对YouTube视频冷启动问题的方法,通过特征工程在视频上传时预测未来1到9周的流行度。特征选取涉及3个角度,包括相关video、作者和关键词,共36个特征。实验使用了多种分类器并进行集成,尽管缺少原理分析和对比,但为视频推荐提供了新的视角。

被折叠的 条评论
为什么被折叠?



