《文哥的学习笔记——推荐系统遇上深度学习》笔记（10~20）

本文链接：https://blog.youkuaiyun.com/qq_35248792/article/details/122855554

本文探讨了GBDT在特征提取中的应用，对比RF，以及如何利用神经协同过滤NCF解决稀疏数据挑战。重点介绍了MLR与DIN的创新技术，包括正则化策略和注意力机制。同时涵盖了Bandit算法、LinUCB和强化学习在新闻推荐中的实践，测评指标和阿里MLR/DIN算法解析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原地址文哥的学习笔记
本文仅从个人角度进行记录学习，很多内容记录不全面，并且原文提供了代码，建议有需要的读者阅读大佬原文进行学习。

第十篇 GBDT+LR融合方案实战
1、为什么建树采用GBDT而非RF：RF也是多棵树，但从效果上有实践证明不如GBDT。且GBDT前面的树，特征分裂主要体现对多数样本有区分度的特征；后面的树，主要体现的是经过前N颗树，残差仍然较大的少数样本。优先选用在整体上有区分度的特征，再选用针对少数样本有区分度的特征，思路更加合理，这应该也是用GBDT的原因。
2、GBDT用于提取特征
3、正则项的影响：树模型的正则是对叶子节点和深度进行惩罚，因此对于高维稀疏特征时更容易过拟合。因为当数据稀疏时，可能会出现在某个特征上所有存在的数据都是同一个值的情况。而这种情况下树会很自然的用一个节点把他们划分，哪怕这可能是偶然。而带正则化的线性模型比较不容易对稀疏特征过拟合。

第十一篇神经协同过滤NCF原理及实战
1、NCF:Neural Collaborative Filtering
2、隐性反馈：虽然观察到的条目至少反映了用户对项目的兴趣（有交互，不一定是正向情感），但是未查看的条目可能只是丢失数据，并且这其中存在自然稀疏的负反馈。有两种常见的做法：要么将所有未观察到的条目视作负反馈，要么从没有观察到条目中抽样作为负反馈实例（这部分涉及到了负采样，比如基于流行度的负采样。在高流行度（高曝光度）的情况下用户没有给予商品正反馈，说明用户大概率（比如 90%）不喜欢这件物品；在低流行度时则是完全不确定的状态（比如 50%）。当我们采样高流行度的负例时，可能只会带来 10% 的偏差，而随机采样会带来 50% 的偏差，从而后者对推荐系统的训练不利。）
3、MF因为使用一个简单的和固定的内积，来估计在低维潜在空间中用户-项目的复杂交互，可能造成限制。解决该问题的方法之一是使用大量的潜在因子 K (就是隐式空间向量的维度，理解就是增加隐式向量的维度)。然而这可能对模型的泛化能力产生不利的影响（e.g. 数据的过拟合问题）
4、使用GMF（广义矩阵分解）和MLP（多层神经网络）

第十二篇缺失
1、介绍Bandit算法（Bandit 算法）。Exploration and Exploitation(EE问题，探索与开发)。

第十三篇 linUCB方法浅析及实现
1、LinUCB，一种结合上下文信息的Bandit方法。解决EE问题
2、在LinUCB中，每一个arm维护一组参数，用户和每一个arm的组合可以形成一个上下文特征

第十四篇《DRN:A Deep Reinforcement Learning Framework for News Recommendation》
1、深度强化学习和推荐系统的一个结合
2、本文使用用户活跃度作为一种新的反馈，来提高推荐的准确性

第十五篇强化学习在京东推荐中的探索
1、Deep Reinforcement Learning for List-wise Recommendations
2、

第十六篇详解推荐系统中的常用测评指标
1、召回率(Recall)、准确率(Precision)、f1-score、Hit Ratio(HR)、NDCG(得分和位置、即推荐产品的先后顺序有关)、MRR、ILS（衡量列表多样性）

第十七篇阿里之MLR算法浅析及实现
1、MLR(mixed logistic regression)算法（2011-2012）创新地提出并实现了直接在原始空间学习特征之间的非线性关系，基于数据自动发掘可推广的模式，相比于人工来说效率和精度均有了大幅提升。2
2、MLR在建模时引入了L1和L2,1范数正则，可以使得最终训练出来的模型具有较高的稀疏度
3、实际中算法的形式比较简单，是softmax和sigmoid形式的组合。

第十八篇阿里之深度兴趣网络(DIN)浅析及实现
1、常见的算法比如Wide&Deep，DeepFM等。这些方法一般的思路是：通过Embedding层，将高维离散特征转换为固定长度的连续特征，然后通过多个全联接层，最后通过一个sigmoid函数转化为0-1值，代表点击的概率。即Sparse Features -> Embedding Vector -> MLPs -> Sigmoid -> Output.
2、用户在浏览电商网站的过程中显示出的兴趣是十分多样性的。由于用户兴趣的多样性，只有部分历史数据会影响到当次推荐的物品是否被点击，而不是所有的历史记录。比如推荐泳帽，和该用户在视频、书籍上的兴趣无关。
3、对用户历史行为基于Attention机制进行一个加权，使得针对不同的广告，用户历史行为与该广告的权重是不同的。否则很难学到有效的用户和广告的embedidng表示（如果用户的对广告的兴趣都相同，广告之间很难体现出差异）
4、模型使用的评价指标是GAUC
5、Dice激活函数：Data Dependent Activation Function。分割点不一定都是0，分割点应该由数据决定。公式中的阿尔法需要训练。
6、CTR中输入稀疏而且维度高，通常的做法是加入L1、L2、Dropout等防止过拟合。阿里提出了自适应正则的做法，即：针对feature id出现的频率，来自适应的调整他们正则化的强度；对于出现频率高的，给与较小的正则化强度；对于出现频率低的，给予较大的正则化强度。

第二十篇贝叶斯个性化排序(BPR)算法原理 **
1、贝叶斯个性化排序(Bayesian Personalized Ranking），pair wise的一种