IS论文分享Background Music Recommendation on Short Video Sharing Platforms

        

这篇论文《Background Music Recommendation on Short Video Sharing Platforms》由Jiawei Chen等人撰写,发表在《Information Systems Research》2024年第35卷第4期。论文主要研究了短视频分享平台上背景音乐推荐的问题,并提出了一种基于深度学习的推荐模型(DL-BGM),用于为用户上传的短视频推荐合适的背景音乐。

1. 研究背景与问题定义

        短视频分享平台(如TikTok、Douyin等)的兴起极大地改变了用户生成内容(UGC)的创作和分享方式。这些平台上,用户在上传视频时通常会选择背景音乐来增强视频的吸引力。选择合适的背景音乐不仅能提升视频的质量,还能增强观众的参与度,最终促进平台的发展。然而,面对平台上大量的音乐片段,用户需要一个高效的推荐系统来帮助他们快速找到合适的背景音乐。

        论文指出,现有的背景音乐推荐系统主要基于音乐和视频之间的匹配,而忽略了用户的个人偏好。此外,现有的推荐系统在处理新视频(无历史互动数据)时也面临挑战。因此,论文提出了一个新的问题:如何为用户上传的短视频推荐合适的背景音乐,同时考虑用户、视频和音乐之间的三元关系。

2. 研究方法

        为了有效解决上述问题,论文提出了一个基于深度学习的背景音乐推荐模型(DL-BGM),该模型通过分析用户、视频和音乐之间的三元关系来提供推荐。具体方法如下:

2.1 用户-音乐匹配模块

        该模块通过分析用户过去选择的音乐片段和音乐片段的用户特征,来预测用户对新音乐片段的偏好。具体步骤如下:

  1. 特征转换:将用户特征 xu​ 和音乐特征 xm​ 转换到同一特征空间,以便进行匹配。

  2. 用户相关音乐特征聚合:通过平均池化层,聚合用户过去选择的音乐片段的特征,得到用户相关的音乐特征 xmu​。

  3. 匹配向量计算:在用户特征空间和音乐特征空间分别计算用户与音乐的匹配向量 hu,m​ 和 hm,u​。

  4. 注意力机制:引入注意力机制,为不同的音乐片段分配不同的权重,以更准确地提取音乐特征。

2.2 视频-音乐匹配模块

        该模块则考虑视频内容与音乐片段之间的匹配度。由于新视频没有历史音乐互动数据,模型通过分析与目标视频相似的视频所使用的音乐片段来预测匹配度。具体步骤如下:

  1. 特征转换:将视频特征 xv​ 和音乐特征 xm​ 转换到同一特征空间。

  2. 视频相关音乐特征聚合:通过平均池化层,聚合与目标视频相似的视频所使用的音乐片段的特征,得到视频相关的音乐特征 xmv​。

  3. 匹配向量计算:在视频特征空间和音乐特征空间分别计算视频与音乐的匹配向量 hv,m​ 和 hm,v​。

  4. 注意力机制:引入注意力机制,为不同的音乐片段分配不同的权重,以更准确地提取音乐特征。

2.3 模型框架

        DL-BGM模型的整体框架如图2所示,包含用户-音乐匹配模块和视频-音乐匹配模块。两个模块共享音乐特征空间,并通过注意力机制进行特征聚合,以提高音乐特征的提取精度。

3. 实验

        论文使用了从抖音平台收集的真实数据进行实验,数据集包含用户、视频和音乐片段以及它们之间的互动信息。具体数据集统计信息如下:

  • 原始数据集:6,746,286个视频,4,049个音乐片段,4,960,170个用户。

  • 最终数据集:323,843个视频,1,717个音乐片段,16,559个用户。

3.1 特征提取
  • 用户特征:使用用户ID的独热编码表示用户身份信息。

  • 音乐特征:包括MFCCs、节奏、歌词特征、流派特征和流行度特征。

  • 视频特征:使用CNN提取视频帧特征,并结合视频文本的文本嵌入特征。

3.2 基线模型

        论文将DL-BGM模型与多种基线模型进行比较,包括:

  • Top Popular:推荐最受欢迎的音乐片段。

  • KNN:基于视频相似性的最近邻推荐。

  • MF:基于用户-音乐交互信息的矩阵分解方法。

  • NeuMF:基于神经网络的矩阵分解方法。

  • LFM:基于潜在因子的背景音乐推荐模型。

  • PDSM:基于伪歌曲的深度相似性匹配方法。

3.3 评估指标

        使用以下指标评估模型性能:

  • HR@N:命中率,表示推荐列表中是否包含真实选择的音乐片段。

  • NDCG@N:归一化折扣累积增益,考虑推荐列表中真实选择的排名。

  • AL@N:平均点赞数,表示推荐音乐片段的视频获得的平均点赞数。

3.4 实验结果

        实验结果表明,DL-BGM模型在推荐性能上显著优于其他现有模型。具体结果如下:

  • HR@5:DL-BGM模型的HR@5为0.1956,比其他基线模型高出26.2%至3,739.3%。

  • NDCG@5:DL-BGM模型的NDCG@5为0.1359,比其他基线模型高出显著。

  • AL@5:DL-BGM模型的AL@5为2,204.1,比其他基线模型高出显著。

4. 关键结论

  • 模型性能:DL-BGM模型在推荐性能上显著优于其他现有模型,无论是在热门率(HR)、归一化折扣累积增益(NDCG)还是平均点赞数(AL)上都表现优异。

  • 三元关系:通过用户-音乐和视频-音乐匹配模块,模型能够有效地捕捉用户、视频和音乐之间的复杂关系。

  • 注意力机制:引入注意力机制可以显著提高模型的性能,因为它能够更准确地提取音乐特征。

5. 管理意义

  • 内容创作者:推荐系统可以帮助创作者更高效地找到合适的背景音乐,提高创作效率和满意度,从而鼓励他们上传更多高质量的视频。

  • 内容消费者:合适的背景音乐可以提升视频质量,增强观众的参与度和满意度。

  • 平台:一个优秀的推荐系统可以吸引更多的创作者和观众,促进平台的生态建设和增长。

6. 实际应用

        论文提出的DL-BGM模型不仅适用于背景音乐推荐,还可以扩展到其他需要处理三元关系的推荐场景,如照片编辑、视频特效推荐、内容模板推荐等。

7. 未来研究方向

        论文指出,未来的研究可以进一步探索如何利用更多的用户特征(如人口统计学信息)来改进推荐系统,以及如何减少现有推荐系统对用户选择的影响。此外,还可以考虑将内容创作者作为消费者的角色纳入模型中,以更全面地捕捉用户偏好。

        总的来说,这篇论文在短视频背景音乐推荐领域做出了重要的贡献,提出了一个创新的深度学习模型,并通过实验验证了其有效性。

如果你觉得这篇博文对你有帮助,请点赞、收藏、关注我,并且可以打赏支持我!

欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

谢谢大家的支持!

python+opencv简谱识别音频生成系统源码含GUI界面+详细运行教程+数据 一、项目简介 提取简谱中的音乐信息,依据识别到的信息生成midi文件。 Extract music information from musical scores and generate a midi file according to it. 二、项目运行环境 python=3.11.1 第三方库依赖 opencv-python=4.7.0.68 numpy=1.24.1 可以使用命令 pip install -r requirements.txt 来安装所需的第三方库。 三、项目运行步骤 3.1 命令行运行 运行main.py。 输入简谱路径:支持图片或文件夹,相对路径或绝对路径都可以。 输入简谱主音:它通常在第一页的左上角“1=”之后。 输入简谱速度:即每分钟拍数,同在左上角。 选择是否输出程序中间提示信息:请输入Y或N(不区分大小写,下同)。 选择匹配精度:请输入L或M或H,对应低/中/高精度,一般而言输入L即可。 选择使用的线程数:一般与CPU核数相同即可。虽然python的线程不是真正的多线程,但仍能起到加速作用。 估算字符上下间距:这与简谱中符号的密集程度有关,一般来说纵向符号越稀疏,这个值需要设置得越大,范围通常在1.0-2.5。 二值化算法:使用全局阈值则跳过该选项即可,或者也可输入OTSU、采用大津二值化算法。 设置全局阈值:如果上面选择全局阈值则需要手动设置全局阈值,对于.\test.txt中所提样例,使用全局阈值并在后面设置为160即可。 手动调整中间结果:若输入Y/y,则在识别简谱后会暂停代码,并生成一份txt文件,在其中展示识别结果,此时用户可以通过修改这份txt文件来更正识别结果。 如果选择文件夹的话,还可以选择所选文件夹中不需要识别的文件以排除干扰
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

会飞的Anthony

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值