推荐系统
咸鱼在厦大
厦门大学研究生在读,哔哩哔哩账号同名(咸鱼在厦大),专注于考研和AI技术分享,欢迎去踩!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
排序模型和模型ensemble
通过召回的操作, 我们已经大大减少了问题规模, 对于每个用户, 选择出了N篇文章作为了候选集,而且在前面我们也构造了一些特征,目的就是为了让机器学习的model来对其进行学习,然后对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章,作为最终的结果,所以引入了排序模型,本次选择了三个比较有代表性的排序模型,它们分别是:LGB的排序模型、LGB的分类模型、深度学习的分类模型DIN。然后用了两个简单的模型融合技术,一个是输出结果加权融合,二是Staking融合。 light原创 2020-12-06 21:25:02 · 979 阅读 · 0 评论 -
推荐系统—特征工程
由于本人的一些原因(实训)所以没能好好手巧代码,但下去一定会补上的 我的理解就是,基于之前得到的找回结果,会得到一些“用户字典”, 比如对于用户user1, 假设得到的他的召回列表{user1: [item1, item2, item3]}, 我们就可以得到三行数据(user1, item1), (user1, item2), (user1, item3)的形式, 这就是监督测试集时候的前两列特征。而且特征这部分可以做很多事情,比如特征融合、特征相关性分析等…目的只有一个,就是找出强特。 ...原创 2020-12-03 23:01:52 · 179 阅读 · 0 评论 -
推荐系统第三部分-多路召回
这两天在进行实训,每天安排的满满的,所以近几天停了手头的所有比赛和事,专心在搭建集群配置环境和实训等,等这两天忙过去好好补,实在抱歉 大致解释一些什么是多路召回,所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。如下图是多路召回的一个示意图,在.原创 2020-11-30 22:20:06 · 306 阅读 · 0 评论 -
Task01
EDA部分 心得写在前面吧:总结:通过这次新闻推荐的EDA部分,我懂了一些知识,其实大部分特征都是在可视化的基础上看出来的,所以说可视化非常重要,而且当特征较多时,有很多强特都不是现存的特征,而且有一些特征组合而来,顺便说一下在EDA部分发现的一些东西,就是用户阅读的文章有很强的相关性,这点很明显,还有就是我发现了设置怎样的阈值来定义热门文章以及冷门文章,而且用户点击文章的次数有很大的区分度,后面可以根据这个制作衡量用户活跃度的特征,还有就是文章的点击次数也有很好的区分度,还有就是训练集和测试集的用户id没原创 2020-11-27 16:31:49 · 228 阅读 · 0 评论 -
Baseline
心得:总结:这是我第一次接触到推荐类的比赛,感觉眼前焕然一新,因为目之所及,皆为“惊喜”,说来惭愧,弄的时候竟然还有些畏惧,可能是在自己所擅长领域的舒适群带的太久了,之前自己熟悉的是数据挖掘PySpark机器学习等,模型无外乎也就那几种,可我发现这次的和以前的截然不同,甚至连评判标准都不同,甚是心慌(手动捂脸),所幸里面还有很多熟悉的方法,但我没有学过推荐系统基础啊,所以做起来还是很吃力,哈哈,我这两天需要赶紧补补基础,跑完Baseline之后收获也很多,知道了新闻推荐类比赛是个什么流程,也给了我很大启发,原创 2020-11-25 16:26:46 · 359 阅读 · 0 评论
分享