1. 标签预测思路
1.1 问题描述
通过老用户的静态特征(手机品牌、性别、地域、安装的APP列表),以及用户的兴趣标签tag分数,构造模型预测新用户的兴趣标签tag。
1.2 特征说明及预处理
1. 手机品牌组
原始手机品牌非常杂乱,包括各大厂商的子品牌,共计6W个。
取京东上有售的118个手机品牌,从0-118进行编号,其中0为缺省值。
这部分作为一个特征。
2. 地域组
一共237个地区(包括国外地区),由于国外地区人数分布比较多,将其保留,并从0-237进行编号,其中0为缺省值。
这部分作为一个特征。
3. 性别组
包括男性、女性、未知,从0-2进行编号,其中0为缺省值。
这部分作为一个特征。
4. applist组
这部分为128个特征。
1.3 样本选择
取一个月活跃度最高的100万用户样本(用户文章曝光数>1000,点击率>0.1)。
模型输入:4组共计131维特征,DT算法对特征是数值型还是类别型不敏感。
模型输出:用户画像中兴趣标签的分数。其中,输出的标签是通过选取最近1个月点击率前5000的tag(选取的tag最小点击为0.183)。
最终输出:预测用户在这5000个tag中最喜欢的分数最高的50个tag,作为用户tag画像。
1.4 模型分析
多标签回归问题,也可作为多标签分类问题处理,但缺点是样本的输出会弱化标签分数为类别。
1.5 模型选择
1. 使用RF作为baseline进行多标签回归预测;
2. xgbo

这篇博客探讨了如何预测新用户的兴趣标签,通过手机品牌、性别、地域等特征进行模型训练,采用RF、xgboost和深度学习进行多标签回归预测。同时,文章介绍了效果标签的迭代优化框架,包括监督学习的概念、兴趣标签定向、效果评估机制和迭代方法,强调以业务效果为导向,利用A/B测试进行验证和优化。
最低0.47元/天 解锁文章
4312

被折叠的 条评论
为什么被折叠?



