满帮推荐算法岗

最新推荐文章于 2025-12-16 18:51:30 发布

原创最新推荐文章于 2025-12-16 18:51:30 发布 · 1.4k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#推荐算法

推荐算法面试专栏收录该内容

2 篇文章

订阅专栏

博主参与了华为杯数学建模比赛并介绍了新闻推荐项目，涉及Xgboost、bagging等算法，讨论了K-L散度、决策树、特征工程和冷启动问题。在面试中，还讨论了SQL、Java、数据结构和DIN模型的使用，强调了在亿级数据下模型的选择与优化。

第一次面试—满帮推荐算法岗

1 简单的自我介绍

①：为什么要做推荐算法？
②：课程方面涉及到哪些机器学习和推荐算法的模型？
③：自己动手操作过的算法有哪些？–我说了华为杯

2 项目介绍：华为杯数学建模比赛

①：简单介绍了一下这个比赛的内容和需要做什么
②：为什么选择xgboost–我从数据量、问题的导向和要求、xgboost近年来的流行度三个方向作答了
③：为什么没考虑比较简单的算法来做–考虑了，列举了简单的方法，说明了为什么没有用
④：Xgboost和bagging的融合模型怎么解释—融合模型的权重解释，怎样操作的
Xgboost和bagging的算法效果咋样，评价指标大概是多少
⑤：bagging的ensemble思想
⑥：K-L散度的解释—我自己补充了K-L散度与交叉熵的关系
⑦：第四问的思想，流程的解释–感觉自己说的有点重复磕巴
⑧：为什么第四问不用机器学习算法来做，而是基于统计思想来做
⑨：是否可以使用决策树来求取值范–我提出了疑问（划分区间不好解释、不同层用到了相同的特征）

3 项目介绍：新闻推荐

①：简单介绍了一下新闻推荐的问题背景、待求解的问题、比赛的评分指标、数据集的简单介绍
②：是否做了数据的清洗，有哪些—我这方面做的比较少，我主动说了我做的是特征工程
③：主动介绍特征过程：用户的数据特征（用户是否活跃）、物品的数据特征（文章的热度）、用户点击文章的共现频率（下一时刻的文章与上一时刻的文章有较强的关联性）、新闻的字数等特征
④：那你最后的特征维数是多少
⑤：召回阶段–使用的召回策略，itemcf和usercf，计算相似度的时候使用到了一些关联规则，这些关联规则的解释。
⑥：召回的结果的融合—我说到了基于召回在测试集上面的效果作为权重，以及召回分数的归一化；召回回来的文章有重合怎么办？
⑦：测试集和训练集的划分。–关键在于如何构造测试集
⑧：解释验证集的构造思想：滑动窗口的思想、怎样从训练集选取验证集
⑨：有的用户只有1-2条记录，怎么使用滑动窗口来处理
⑩：由于用户的点击记录过少，涉及到的用户的冷启动问题–热门推荐
11：由于有些文章太过于冷门，涉及到的冷启动问题
12：面试官引导冷启动问题—是否可以基于某个特征来推荐（eg：人口统计信息等）
13：训练集和测试集的样本数、最后喂给模型的样本量是多少条记录
14：你用了DIN模型，一般需要亿级的数据来训练，那你为什么选择DIN
15：考虑过其他简单的模型–我提出了不同的简单的模型来做融合

4 其他

①：会SQL吗？面试官建议学，spark也要多接触，工业中一般不用python做数据预处理
②：会java吗？
③：数据结构懂吗？–看过一本数据结构的书，一些常见的数据结构（数组，列表，二叉树，dfs和bfs等）看过，leetcode也在刷题。
④：使用较多的激活函数—relu、tahn、sigmoid
⑤：知道Dice激活函数吗—Din的文章中看到过，但没有使用过
⑥：auc的解释—roc曲线下面的面积