信息流推荐相关,做策略算法,短视频推荐中心
- 自我介绍(参加面试准备【面向简历】)
- spark相关
- 看我简历上写了会spark,spark是基本应用工具,让我讲下spark的基本工作流程,基本架构,阐述一下(https://www.cnblogs.com/BYRans/p/5889374.html)(https://www.cnblogs.com/openAI/p/8481646.html)(https://blog.youkuaiyun.com/qq_38048590/article/details/82345590)
- spark是基于Scala语言的,有没有阅读过spark的源码(mllib,spark sql)知道底层原理?(https://www.cnblogs.com/code2one/p/10162632.html)
- 提交一个job后的工作流程,job提交到哪里?submit job 到哪里?spark count 显示再哪里?driver/worker的概念?(https://www.cnblogs.com/bonelee/p/6039386.html)
- RDD的中文含义?RDD是怎么存储的?spark常用的transformer操作有哪些?spark最耗时的步骤是啥?spark中虾否运行很 长时间,reduce by key,耗时是因为有虾否(https://www.cnblogs.com/bonelee/p/6039719.html)(https://www.imooc.com/article/29068)
- python相关
- 聊美团的实习
- 小伙伴还喜欢
- 小伙伴是一个独立的页卡?
- 小伙伴的业务背景是?是登陆后获取好友信息,然后把推给朋友的推给我吗?
- EE的意思(探索,利用),主要是做探索还是利用?
- 头图指啥?相当于兜底数据?
- 头图和EE图片,EE的概念?EE是实时反馈的数据?EE图片是随机展示给用户的?
- 是把ctr最高的展示给用户?
- 用了哪些特征,指标确定策略,长宽是特征吗,落实到哪里了?给EE图片打分?
- 设计比例,权重计算等,都是根据统计规律吗?
- 最后是全量了?收益提升了2%-5%
- 关键词抽取
- tfidf抽取关键词,user侧和item侧是相当于做用户画像吗?
- 分词是怎么做的,jieba分词?(用ansj包)
- 关键词做特征?出来的关键词做特征向量是高维向量?
- 意思是你对每个user 和每个item取top5,把这个作为user或者item用户画像的特征?
- 召回模型具体是什么模型?(dssm)
- dssm是个双塔模型,有了解吗?
- 还有其他的召回算法?其他的召回策略?
- 精排模型有哪些,有了解?实习接触到模型?精排模型看过?
- 精排模型是自己搭的?还是用tf?
- 线上auc大大提升?auc的概念是什么,具体什么内容?召回率是?精确率是?(https://blog.youkuaiyun.com/u013385925/article/details/80385873,https://www.cnblogs.com/Zhi-Z/p/8728168.html)
- 聊爱奇艺的实习
- 对用户用GMM做了分聚类(分组),用了什么特征?(用户刷新次数/停留时长/留存)
- 为什么用GMM而不用kmeans?
- GMM模型上线了吗?
- 构建了收入/收藏特征。那么他们这边的召回模型是用啥?(应该改成排序模型)
- 聊比赛
- 打比赛用了xgboost/gbdt/rf,为什么同时用三个树模型在里面,进行模型融合,而不是只用一个xgboost
- 说算法题
- 二叉树的层序遍历(思路)
- 如何判断单链表是否有环(思路)
- 判断两个单链表是否有交点
- 机器学习算法
- 说一个最熟练的机器学习算法,讲下原理就好
- gbdt做分类和回归用的基学习器树模型你觉得是不一样的吗?(让我回去再看看)
- 问我有什么问的
- 问他们那边召回和精排用了什么模型(icf/ucf/fm/tag召回/aloy,xgboost/lr-->nn/an)
- 业务场景(腾讯视频app,做短视频)
- 组织架构(平台与内容(信息流)/短视频推荐技术中心(用户画像/召回/精排/粗排)
- 技术栈(spark/大数据处理/偏算法研究,用spark做数据分析,做策略算法开发)