
推荐系统
鲍Wei
这个作者很懒,什么都没留下…
展开
-
task05
task05 排序模型+模型融合排序模型使用了召回操作后已经缩减了问题规模,每个用户都有候选集,并基于召回的候选集构建了与用户历史相关的特征,以及用户本身的属性特征,文章本省的属性特征,以及用户与文章之间的特征,下面就是使用机器学习模型来对构造好的特征进行学习,然后对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章,作为最终的结果。三个有代表性的排序模型:LGB的排序模型、LGB的分类模型、深度学习的分类模型DIN两种经典的模型集成的方法:输出结果加权融合、S原创 2020-12-05 12:56:11 · 346 阅读 · 1 评论 -
task01
task01(赛题理解+baseline)参加datawhale的组队学习记录赛题理解赛题简介数据概况如何改变文本的样式运行过程读取数据获取 用户 - 文章 - 点击时间字典获取点击最多的topk个文章给每个用户根据物品的协同过滤推荐文章召回字典转换成df生成提交文件总结参加datawhale的组队学习记录赛题理解赛题理解是切入一道赛题的基础,会影响后续特征工程和模型构建等各种工作,也影响着后续发展工作的方向,正确了解赛题背后的思想以及赛题业务逻辑的清晰,有利于花费更少时间构建更为有效的特征模型, 在原创 2020-11-25 20:27:33 · 234 阅读 · 0 评论 -
task04 特征工程
特征工程制作特征和标签, 转成监督学习问题可以直接利用的特征有:1.文章的自身特征, category_id表示这文章的类型, created_at_ts表示文章建立的时间, 这个关系着文章的时效性, words_count是文章的字数, 一般字数太长我们不太喜欢点击, 也不排除有人就喜欢读长文。2.文章的内容embedding特征, 这个召回的时候用过, 这里可以选择使用, 也可以选择不用, 也可以尝试其他类型的embedding特征, 比如W2V等3.用户的设备特征信息上面这些直接可以用的特原创 2020-12-02 09:58:01 · 245 阅读 · 0 评论