
天池竞赛
liaojq2020
这个作者很懒,什么都没留下…
展开
-
天池新闻推荐入门赛-TASK05-排序模型与模型融合
目录前言一、排序模型读取排序特征返回排序后的结果LGB排序模型LGB分类模型DIN模型用户的历史点击行为列表DIN模型简介二、模型融合加权融合Staking总结前言此文是作者参加阿里天池与Datawhale联合发起的新闻推荐场景下的用户行为预测挑战赛的一些收获总结,比赛具体内容与赛题见链接:零基础入门推荐系统 - 新闻推荐一、排序模型通过召回的操作, 我们已经进行了问题规模的缩减, 对于每个用户, 选择出了N篇文章作为了候选集,并基于召回的候选集构建了与用户历史相关的特征,以及用户本身的属性特征,文原创 2020-12-06 10:52:51 · 408 阅读 · 1 评论 -
天池新闻推荐入门赛-TASK04-特征工程
目录前言一、分析二、程序运行与结果导包df节省内存函数数据读取训练和验证集的划分获取历史点击和最后一次点击读取训练、验证及测试集读取召回列表读取各种EmbeddingWord2Vec训练及gensim的使用读取文章信息读取数据对训练数据做负采样将召回数据转换成字典特征工程制作与用户历史行为相关特征用户和文章特征用户相关特征分析一下点击时间和点击文章的次数,区分用户活跃度分析一下点击时间和被点击文章的次数, 衡量文章热度特征用户的系列习惯用户的设备习惯用户的时间习惯用户的主题爱好用户的字数偏好特征用户的信息特原创 2020-12-02 21:35:23 · 232 阅读 · 1 评论 -
天池新闻推荐入门赛-TASK03-多路召回
目录前言一、多路召回概念二、多路召回代码及结果导包读取数据数据预处理数据浏览1.用户点击日志文件(训练集)2.测试集用户点击日志3.新闻文章信息数据表4.新闻文章embedding向量表示数据分析1.用户重复点击2.用户点击环境变化分析3.用户点击新闻数量的分布4.新闻点击次数分析5.新闻共现频次:两篇新闻连续出现的次数6.新闻文章信息7.用户点击的新闻类型的偏好8.用户查看文章的长度的分布9.用户点击新闻的时间分析三、总结前言此文是作者参加阿里天池与Datawhale联合发起的新闻推荐场景下的用户行为原创 2020-11-30 10:15:09 · 1867 阅读 · 0 评论 -
天池新闻推荐入门赛-TASK02-数据分析及Pandas的使用
目录前言一、数据分析意义二、数据分析代码及结果导包读取数据数据预处理数据浏览1.用户点击日志文件(训练集)2.测试集用户点击日志3.新闻文章信息数据表4.新闻文章embedding向量表示数据分析1.用户重复点击2.用户点击环境变化分析3.用户点击新闻数量的分布4.新闻点击次数分析5.新闻共现频次:两篇新闻连续出现的次数6.新闻文章信息7.用户点击的新闻类型的偏好8.用户查看文章的长度的分布9.用户点击新闻的时间分析三、总结前言此文是作者参加阿里天池与Datawhale联合发起的新闻推荐场景下的用户行为原创 2020-11-27 23:20:05 · 378 阅读 · 0 评论 -
天池新闻推荐入门赛-TASK01-赛题理解与Baseline代码
目录前言一、赛题理解1.题目简介2.赛题数据3.赛题评价方式4.赛题分析二、Baseline1.Baseline各部分代码导包设置数据路径和结果保存路径df节省内存函数读取采样或全量数据获取 用户 - 文章 - 点击时间字典获取点击最多的Topk个文章itemCF的物品相似度计算itemCF 的文章推荐召回字典转换成df生成提交文件2.Baseline运行结果前言此文是作者参加阿里天池与Datawhale联合发起的新闻推荐场景下的用户行为预测挑战赛的一些收获总结,比赛具体内容与赛题见链接:零基础入门推荐原创 2020-11-25 22:30:06 · 733 阅读 · 0 评论