Temporal Hierarchical Attention at Category- and Item-Level for Micro-Video Click-Through Prediction

最新推荐文章于 2023-10-30 12:01:27 发布

原创最新推荐文章于 2023-10-30 12:01:27 发布 · 922 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #短视频 #视频推荐

本文探讨了短视频推荐系统的最新进展，重点介绍了基于内容过滤、协同过滤及混合方法的传统推荐算法，并提出了一种结合时间注意力机制和多头自注意力机制的深度学习模型，以解决短视频推荐中的冷启动问题。

论文题目： Temporal Hierarchical Attention at Category- and Item-Level for
Micro-Video Click-Through Prediction
论文链接： link

1 INTRODUCTION
短视频取得了很大的流行，因此迫切需要良好的推荐系统。
传统的方法主要为基于内容的过滤、协同过滤和混杂的方法。基于内容的的过滤要求根据视频内容计算相关度，然后根据用户历史点击的内容进行推荐。协同过滤学习的用户和物品的交互数据。CBF和CF都用了用户的历史信息。（不同的是CBF主要是对视频多模态内容的研究，CF去除内容主要对交互进行研究，因此CF不能推荐新出现的物品）。混杂的方法则组合了CF和CBF的优点。另外传统的推荐算法假设用户的兴趣的不变的，尽管越来越多的工作开始考虑用户兴趣的变化）。
具体到视频推荐，近些年已经见证了很大的进展，（Deep neural networks for youtube recommendations RecSys 2016、What videos are similar with you?:Learning a common attributed representation for video recommendation MM 2014、A Unified Personalized Video Recommendation via Dynamic Recurrent Neural Networks MM2017、Contextual video recommendation by multimodal relevance and user feedbackTOIS 2011）尽管仍然很难。短视频与传统的线上视频没有多元化的数据（如电影的导演、演员等）。
我们的工作是做短视频推荐，即给一个新的视频预测用户点击的概率。不考虑文本等多元化的信息，只考虑视频的封面（缺点）。同时由于短视频每日巨大的产生量，也就是说新视频没有历史的交互，因此CF一类的算法将不再适用）
近些年来用神经网络特别是RNN来建模用户的行为是一个正在兴起的课题。A Unified Personalized Video Recommendation via Dynamic Recurrent Neural Networks MM 2017、Session-based recommendations with recurrent neural networks ICLR 2016。RNN比马尔可夫链要好，但是对于长链有困难。为了解决这个问题，ATRank: An Attention-Based User Behavior Modeling Framework for Recommendation用self-attention来解决。

2 RELATED WORK
2.1 Video Recommendation
介绍CBF、CF、和混杂三种类型的方法。
介绍短视频
2.2 RNN- and Attention-Based Recommendation
介绍RNN的进展

3 METHODS
由于冷启动问题，我们采取基于内容过滤的方法，也就是根据用户之前看过的视频的内容，根据新到来的视频与其相似性进行推荐。同时与传统的基于内容推荐不同的是，我们考虑时序性，也就是将用户看过的视频看作一个序列。
短视频拥有多模态的数据，在这里我们只考虑其封面和类别
3.1 Item Embedding
此部分的目的是将item映射到一个d维空间
每个视频都有一个视觉特征（从图片提取而来），将其映射到f维；同时每个视频都有一个类别，首先用one-hot编码表示，其次将其映射到c维。然后将两个向量拼接（d维），作为视频的表征
3.2 Temporal Hierarchical Attention
如果用RNN来建模序列，难以捕捉短期与长期依赖的问题。因此我们用时间注意力机制来解决这个问题
首先将序列切割成 m块，每块k个视频。在每一块里，我们使用category level和item level的attention来得到向量l，l来表征第i块的信息（局部信息）。然后我们用multi-head self-attention来探索块之间的联系，得的g（代表着第一个到第i块的全局信息）。然后我们将局部信息与全局信息组合，得到 u,代表着考虑了时序性的第i块的信息。
Category- and item-level attention：在每一个块中有k个视频，且有视觉特征和类别特征两种属性。分别对每一个视频赋予attention score，来得到第I块的信息。
Forward multi-head self-attention：对于每一块的表征l,计算他与其他块的attention，然后mask掉序列后部分对前部分的影响，然后得到新的序列表征g
3.3 Micro-Video Click-Through Prediction
现在我们得到了用户的观看序列表征 u，然后来一个新的item，经过3.1的item embedding，得到x，然后x与序列u进行attention，u与attention score相乘求和得到新的u，然后将u与x放入两层的mlp，然后softmax，然后logloss函数。

4 EXPERIMENTS
在这里插入图片描述