【论文笔记】跨域推荐(CDR)

DTCDR(2019)

论文解读系列第一篇:CIKM-19 论文 DTCDR - 知乎 (zhihu.com)

1 核心思想

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-a3F3e4r1-1626967003304)(C:\Users\86525\AppData\Roaming\Typora\typora-user-images\image-20210720160702083.png)]

  • 传统的跨域推荐都是利用源领域(Source domain)的丰富数据来提升单个目标领域(Target domain)的推荐准确度,即Source→Target。而源领域的推荐准确度没法直接通过现有的CDR方法来提升,因为没法直接改变现有的知识迁移方向,即没法从Source→Target变成Target→Source,否则会产生**“消极迁移”(Negative Transfer)的问题**。本论文中以两个域的共同用户或者共同商品作为桥梁,来实现双向的知识迁移,从而同时改善两个领域的推荐准确度。

  • 嵌入层中,本论文除了常用的评分信息以外,还利用了其它多源的文本信息,如评论文本,标签,用户简介,商品详情。该论文使用Doc2Vec模型来处理这些文本信息,获取用户和物品的文本表示(document embedding)。此外,该论文改进了NeuMF和DMF两个模型,并分别获取用户和物品的评分表示(rating embedding)。

  • 合并层中,使用max-pooling策略分别合成共同用户分别来至领域A和B的文本以及评分信息。接着使用三种不同的合并策略(Combination operators,具体的是指average-poolingmax-pooling,以及Concatenation来合成文本以及评分信息。==通过嵌入层和合并层,优化了领域A和B中共同用户的特征表示,并同两个领域分别的物品特征表示一起作为模型层的输入。==在模型层,使用了全连接的多层感知器(MLP)来学习用户和物品之间的非线性关系,并最终得到喜好预测(Score)给输出层。

DDTCDR(WSDM-2020)

DDTCDR: Deep Dual Transfer Cross Domain Recommendation (aisoutu.com)

1 核心思想

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zui1PAVG-1626967003307)(C:\Users\86525\AppData\Roaming\Typora\typora-user-images\image-20210720152547405.png)]

  • 以前提出的跨领域模型没有考虑到用户和项目之间的双向潜在关系。此外,它们不明确地建模用户和商品特征的信息,而仅利用用户评级信息进行推荐。本论文采用隐性嵌入方法,可以从数据记录中提取潜在的用户偏好,并有效地建模用户和项目特征。

  • 作者建议使用两个组件来建模用户偏好:捕获用户交互并预测用户在目标域中的行为的域内偏好和利用源域用户动作的跨域偏好。引入了传递率α作为超参数,它代表了在预测用户偏好时两种成分的相对重要性。在域对(A, B)中估计用户评分如下:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Fb8nxneE-1626967003308)(C

<think>好的,我需要帮助用户找到推荐算法的数据集下载。首先,我需要回忆一下推荐的基本概念和相关研究。根据用户提供的引用内容,推荐主要解决数据稀疏和冷启动问题,通过迁移不同领的信息来提升推荐效果[^2]。接下来,用户需要的是具体的数据集资源。 首先,我应该列举常见的推荐数据集。比如,亚马逊数据集在引用中被提到用于电子商务场景[^4],这可能是一个好的起点。此外,可能还有其他公开的数据集,如MovieLens、Douban、Last.fm等,这些数据集通常包含用户在不同领的交互信息,比如电影、音乐、书籍等。 然后,我需要确认这些数据集是否可下载。例如,亚马逊评论数据集通常可以在他们的官网或学术资源页面找到,但需要注意使用条款。MovieLens数据集由GroupLens提供,可以直接从他们的网站下载。Douban和Last.fm的数据集可能需要通过学术论文的补充材料或特定平台获取,可能需要注册或许可。 另外,考虑到用户提到的数据迁移,比如引用[3]中提到的机器人学习需要多任务和多领数据集,推荐可能需要包含不同领交互的数据集,如同时包含电影和书籍评分的用户数据。例如,CrossDomainRec数据集可能是一个专门为推荐设计的数据集,需要查找相关论文或资源库。 还需要提醒用户注意数据集的格式和结构是否符合他们的算法需求,比如是否包含用户ID、项目ID、评分、时间戳等。此外,数据预处理步骤也可能影响模型效果,比如处理稀疏性、去噪等。 最后,需要确保提供的下载链接或来源是可靠和最新的,避免用户遇到死链或过时数据。可能需要建议用户查阅最新的研究论文,因为很多作者会在GitHub或项目页面分享数据集。同时,像Kaggle、UCI Machine Learning Repository这样的平台也是查找数据集的常用资源。 总结下来,步骤应该是:1. 列出常用的推荐数据集;2. 提供下载途径和注意事项;3. 补充相关资源获取方法。</think>推荐算法需要包含用户在多个领交互行为的数据集,以下是一些常用数据集及获取方式: ### 一、常用推荐数据集 1. **Amazon Product Dataset** - **内容**:包含用户在书籍、电影、电子产品等不同领的评分和评论 - **特点**:特性显著,适合研究用户偏好迁移[^4] - **下载**:通过[Amazon Product Data](https://nijianmo.github.io/amazon/index.html)页面申请下载 2. **Douban (豆瓣)数据集** - **内容**:用户对电影、书籍、音乐的评分和社交关系 - **场景**:音乐→电影推荐、书籍→电影推荐- **获取**:需通过学术论文《Cross-Domain Recommendation via Deep Domain Adaptation》联系作者获取 3. **Movielens-1M + BookCrossing** - **组合方式**:将电影评分数据集Movielens([官网下载](https://grouplens.org/datasets/movielens/))与书籍评分数据集BookCrossing([Kaggle下载](https://www.kaggle.com/datasets/arashnic/book-recommendation-dataset))联合使用 - **典型应用**:研究电影与书籍领的知识迁移 ### 二、下载注意事项 1. **数据格式验证**: - 检查是否包含必要的标识字段,例如: ```python # 示例数据结构 { "user_id": "U123", "domain_A_ratings": { "item1":5, "item2":4 }, "domain_B_clicks": { "itemX":3 } } ``` - 确认时间戳、交互类型等元数据完整性 2. **预处理建议**: - 使用`pandas`进行缺失值处理: ```python import pandas as pd data = pd.read_csv('dataset.csv').dropna(subset=['core_field']) ``` - 对稀疏数据采用矩阵补全技术 ### 三、最新研究数据集 1. **CDAR (Cross-Domain Recommendation Benchmark)** - 包含6个领平台行为数据 - 获取方式:访问[CDAR Project Page](http://cdar-project.org/)提交申请 2. **腾讯推荐数据集** - 包含视频观看与电商购买联合数据 - 申请途径:通过[腾讯AI开放平台](https://ai.tencent.com/)提交研究用途申请
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值