第一次面试—满帮推荐算法岗
1 简单的自我介绍
①:为什么要做推荐算法?
②:课程方面涉及到哪些机器学习和推荐算法的模型?
③:自己动手操作过的算法有哪些?–我说了华为杯
2 项目介绍:华为杯数学建模比赛
①:简单介绍了一下这个比赛的内容和需要做什么
②:为什么选择xgboost–我从数据量、问题的导向和要求、xgboost近年来的流行度三个方向作答了
③:为什么没考虑比较简单的算法来做–考虑了,列举了简单的方法,说明了为什么没有用
④:Xgboost和bagging的融合模型怎么解释—融合模型的权重解释,怎样操作的
Xgboost和bagging的算法效果咋样,评价指标大概是多少
⑤:bagging的ensemble思想
⑥:K-L散度的解释—我自己补充了K-L散度与交叉熵的关系
⑦:第四问的思想,流程的解释–感觉自己说的有点重复磕巴
⑧:为什么第四问不用机器学习算法来做,而是基于统计思想来做
⑨:是否可以使用决策树来求取值范–我提出了疑问(划分区间不好解释、不同层用到了相同的特征)
3 项目介绍:新闻推荐
①:简单介绍了一下新闻推荐的问题背景、待求解的问题、比赛的评分指标、数据集的简单介绍
②:是否做了数据的清洗,有哪些—我这方面做的比较少,我主动说了我做的是特征工程
③:主动介绍特征过程:用户的数据特征(用户是否活跃)、物品的数据特征(文章的热度)、用户点击文章的共现频率(下一时刻的文章与上一时刻的文章有较强的关联性)、新闻的字数等特征
④:那你最后的特征维数是多少
⑤:召回阶段–使用的召回策略,itemcf和usercf,计算相似度的时候使用到了一些关联规则,这些关联规则的解释。
⑥:召回的结果的融合—我说到了基于召回在测试集上面的效果作为权重,以及召回分数的归一化;召回回来的文章有重合怎么办?
⑦:测试集和训练集的划分。–关键在于如何构造测试集
⑧:解释验证集的构造思想:滑动窗口的思想、怎样从训练集选取验证集
⑨:有的用户只有1-2条记录,怎么使用滑动窗口来处理
⑩:由于用户的点击记录过少,涉及到的用户的冷启动问题–热门推荐
11:由于有些文章太过于冷门,涉及到的冷启动问题
12:面试官引导冷启动问题—是否可以基于某个特征来推荐(eg:人口统计信息等)
13:训练集和测试集的样本数、最后喂给模型的样本量是多少条记录
14:你用了DIN模型,一般需要亿级的数据来训练,那你为什么选择DIN
15:考虑过其他简单的模型–我提出了不同的简单的模型来做融合
4 其他
①:会SQL吗?面试官建议学,spark也要多接触,工业中一般不用python做数据预处理
②:会java吗?
③:数据结构懂吗?–看过一本数据结构的书,一些常见的数据结构(数组,列表,二叉树,dfs和bfs等)看过,leetcode也在刷题。
④:使用较多的激活函数—relu、tahn、sigmoid
⑤:知道Dice激活函数吗—Din的文章中看到过,但没有使用过
⑥:auc的解释—roc曲线下面的面积
5 反问环节
①:电商的推荐和货运匹配的推荐有什么不同
②:对组内实习生的要求
博主参与了华为杯数学建模比赛并介绍了新闻推荐项目,涉及Xgboost、bagging等算法,讨论了K-L散度、决策树、特征工程和冷启动问题。在面试中,还讨论了SQL、Java、数据结构和DIN模型的使用,强调了在亿级数据下模型的选择与优化。
83

被折叠的 条评论
为什么被折叠?



