1.比赛内容:用户新增预测挑战赛教程
(原文转载自飞书云文档,本人笔记与实验代码也放到一起Docs
https://datawhaler.feishu.cn/docx/HBIHd7ugzoOsMqx0LEncR1lJnCf)
赛题解析与解题思路
用户新增预测挑战赛:
举办方:科大讯飞
赛题背景
讯飞开放平台针对不同行业、不同场景提供相应的AI能力和解决方案,赋能开发者的产品和应用,帮助开发者通过AI解决相关实际问题,实现让产品能听会说、能看会认、能理解会思考。
用户新增预测是分析用户使用场景以及预测用户增长情况的关键步骤,有助于进行后续产品和应用的迭代升级。
赛事任务
本次大赛提供了讯飞开放平台海量的应用数据作为训练样本,参赛选手需要基于提供的样本构建模型,预测用户的新增情况。
赛题数据集
赛题数据由约62万条训练集、20万条测试集数据组成,共包含13个字段。其中uuid为样本唯一标识,eid为访问行为ID,udmap为行为属性,其中的key1到key9表示不同的行为属性,如项目名、项目id等相关字段,common_ts为应用访问记录发生时间(毫秒时间戳),其余字段x1至x8为用户相关的属性,为匿名处理字段。target字段为预测目标,即是否为新增用户。
*这里需要认真读题,分析题目中的数据类型,特征数据,唯一标识等等
评价指标
本次竞赛的评价标准采用f1_score,分数越高,效果越好
---------------------------------------------------------------------------------------------------------------------------------
什么是F1-score
F1分数(F1-score)是分类问题的一个衡量指标。一些多分类问题的机器学习竞赛,常常将F1-score作为最终测评的方法。它是精确率和召回率的调和平均数,最大为1,最小为0。
来自机器学习中的F1-score__Yucen的博客-优快云博客
---------------------------------------------------------------------------------------------------------------------------