这篇论文《Background Music Recommendation on Short Video Sharing Platforms》由Jiawei Chen等人撰写,发表在《Information Systems Research》2024年第35卷第4期。论文主要研究了短视频分享平台上背景音乐推荐的问题,并提出了一种基于深度学习的推荐模型(DL-BGM),用于为用户上传的短视频推荐合适的背景音乐。
1. 研究背景与问题定义
短视频分享平台(如TikTok、Douyin等)的兴起极大地改变了用户生成内容(UGC)的创作和分享方式。这些平台上,用户在上传视频时通常会选择背景音乐来增强视频的吸引力。选择合适的背景音乐不仅能提升视频的质量,还能增强观众的参与度,最终促进平台的发展。然而,面对平台上大量的音乐片段,用户需要一个高效的推荐系统来帮助他们快速找到合适的背景音乐。
论文指出,现有的背景音乐推荐系统主要基于音乐和视频之间的匹配,而忽略了用户的个人偏好。此外,现有的推荐系统在处理新视频(无历史互动数据)时也面临挑战。因此,论文提出了一个新的问题:如何为用户上传的短视频推荐合适的背景音乐,同时考虑用户、视频和音乐之间的三元关系。
2. 研究方法
为了有效解决上述问题,论文提出了一个基于深度学习的背景音乐推荐模型(DL-BGM),该模型通过分析用户、视频和音乐之间的三元关系来提供推荐。具体方法如下:
2.1 用户-音乐匹配模块
该模块通过分析用户过去选择的音乐片段和音乐片段的用户特征,来预测用户对新音乐片段的偏好。具体步骤如下:
-
特征转换:将用户特征 xu 和音乐特征 xm 转换到同一特征空间,以便进行匹配。
-
用户相关音乐特征聚合:通过平均池化层,聚合用户过去选择的音乐片段的特征,得到用户相关的音乐特征 xmu。
-
匹配向量计算:在用户特征空间和音乐特征空间分别计算用户与音乐的匹配向量 hu,m 和 hm,u。
-
注意力机制:引入注意力机制,为不同的音乐片段分配不同的权重,以更准确地提取音乐特征。
2.2 视频-音乐匹配模块
该模块则考虑视频内容与音乐片段之间的匹配度。由于新视频没有历史音乐互动数据,模型通过分析与目标视频相似的视频所使用的音乐片段来预测匹配度。具体步骤如下:
-
特征转换:将视频特征 xv 和音乐特征 xm 转换到同一特征空间。
-
视频相关音乐特征聚合:通过平均池化层,聚合与目标视频相似的视频所使用的音乐片段的特征,得到视频相关的音乐特征 xmv。
-
匹配向量计算:在视频特征空间和音乐特征空间分别计算视频与音乐的匹配向量 hv,m 和 hm,v。
-
注意力机制:引入注意力机制,为不同的音乐片段分配不同的权重,以更准确地提取音乐特征。
2.3 模型框架
DL-BGM模型的整体框架如图2所示,包含用户-音乐匹配模块和视频-音乐匹配模块。两个模块共享音乐特征空间,并通过注意力机制进行特征聚合,以提高音乐特征的提取精度。
3. 实验
论文使用了从抖音平台收集的真实数据进行实验,数据集包含用户、视频和音乐片段以及它们之间的互动信息。具体数据集统计信息如下:
-
原始数据集:6,746,286个视频,4,049个音乐片段,4,960,170个用户。
-
最终数据集:323,843个视频,1,717个音乐片段,16,559个用户。
3.1 特征提取
-
用户特征:使用用户ID的独热编码表示用户身份信息。
-
音乐特征:包括MFCCs、节奏、歌词特征、流派特征和流行度特征。
-
视频特征:使用CNN提取视频帧特征,并结合视频文本的文本嵌入特征。
3.2 基线模型
论文将DL-BGM模型与多种基线模型进行比较,包括:
-
Top Popular:推荐最受欢迎的音乐片段。
-
KNN:基于视频相似性的最近邻推荐。
-
MF:基于用户-音乐交互信息的矩阵分解方法。
-
NeuMF:基于神经网络的矩阵分解方法。
-
LFM:基于潜在因子的背景音乐推荐模型。
-
PDSM:基于伪歌曲的深度相似性匹配方法。
3.3 评估指标
使用以下指标评估模型性能:
-
HR@N:命中率,表示推荐列表中是否包含真实选择的音乐片段。
-
NDCG@N:归一化折扣累积增益,考虑推荐列表中真实选择的排名。
-
AL@N:平均点赞数,表示推荐音乐片段的视频获得的平均点赞数。
3.4 实验结果
实验结果表明,DL-BGM模型在推荐性能上显著优于其他现有模型。具体结果如下:
-
HR@5:DL-BGM模型的HR@5为0.1956,比其他基线模型高出26.2%至3,739.3%。
-
NDCG@5:DL-BGM模型的NDCG@5为0.1359,比其他基线模型高出显著。
-
AL@5:DL-BGM模型的AL@5为2,204.1,比其他基线模型高出显著。
4. 关键结论
-
模型性能:DL-BGM模型在推荐性能上显著优于其他现有模型,无论是在热门率(HR)、归一化折扣累积增益(NDCG)还是平均点赞数(AL)上都表现优异。
-
三元关系:通过用户-音乐和视频-音乐匹配模块,模型能够有效地捕捉用户、视频和音乐之间的复杂关系。
-
注意力机制:引入注意力机制可以显著提高模型的性能,因为它能够更准确地提取音乐特征。
5. 管理意义
-
内容创作者:推荐系统可以帮助创作者更高效地找到合适的背景音乐,提高创作效率和满意度,从而鼓励他们上传更多高质量的视频。
-
内容消费者:合适的背景音乐可以提升视频质量,增强观众的参与度和满意度。
-
平台:一个优秀的推荐系统可以吸引更多的创作者和观众,促进平台的生态建设和增长。
6. 实际应用
论文提出的DL-BGM模型不仅适用于背景音乐推荐,还可以扩展到其他需要处理三元关系的推荐场景,如照片编辑、视频特效推荐、内容模板推荐等。
7. 未来研究方向
论文指出,未来的研究可以进一步探索如何利用更多的用户特征(如人口统计学信息)来改进推荐系统,以及如何减少现有推荐系统对用户选择的影响。此外,还可以考虑将内容创作者作为消费者的角色纳入模型中,以更全面地捕捉用户偏好。
总的来说,这篇论文在短视频背景音乐推荐领域做出了重要的贡献,提出了一个创新的深度学习模型,并通过实验验证了其有效性。
如果你觉得这篇博文对你有帮助,请点赞、收藏、关注我,并且可以打赏支持我!
欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。
谢谢大家的支持!