Jdata大数据竞赛总结

竞赛概述:

本次大赛以京东商城真实的用户、商品和行为数据(脱敏后)为基础,参赛队伍需要通过数据挖掘的技术和机器学习的算法,构建用户购买商品的预测模型,输出高潜用户和目标商品的匹配结果,为精准营销提供高质量的目标群体。同时,希望参赛队伍能通过本次比赛,挖掘数据背后潜在的意义,为电商用户提供更简单、快捷、省心的购物体验。


数据介绍:

符号定义:
S:提供的商品全集;
P:候选的商品子集(JData_Product.csv),P是S的子集;
U:用户集合;
A:用户对S的行为数据集合;
C:S的评价数据。


训练数据部分:
提供2016-02-01到2016-04-15日用户集合U中的用户,对商品集合S中部分商品的行为、评价、用户数据;提供部分候选商品的数据P。
选手从数据中自行组成特征和数据格式,自由组合训练测试数据比例。


预测数据部分:
2016-04-16到2016-04-20用户是否下单P中的商品,每个用户只会下单一个商品;抽取部分下单用户数据,A榜使用50%的测试数据来计算分数;B榜使用另外50%的数据计算分数(计算准确率时剔除用户提交结果中user_Id与A榜的交集部分)。


1、用户数据


2、商品数据


3、评价数据


4、行为数据


任务描述:

参赛者需要使用京东多个品类下商品的历史销售数据,构建算法模型,预测用户在未来5天内,对某个目标品类下商品的购买意向。对于训练集中出现的每一个用户,参赛者的模型需要预测该用户在未来5天内是否购买目标品类下的商品以及所购买商品的SKU_ID。评测算法将针对参赛者提交的预测结果,计算加权得分。

评分标准:

参赛者提交的结果文件中包含对所有用户购买意向的预测结果。对每一个用户的预测结果包括两方面:
1、该用户2016-04-16到2016-04-20是否下单P中的商品,提交的结果文件中仅包含预测为下单的用户,预测为未下单的用户,无须在结果中出现。若预测正确,则评测算法中置label=1,不正确label=0;
2、如果下单,下单的sku_id (只需提交一个sku_id),若sku_id预测正确,则评测算法中置pred=1,不正确pred=0。
对于参赛者提交的结果文件,按如下公式计算得分:
Score=0.4*F11 + 0.6*F12
此处的F1值定义为:
F11=6*Recall*Precise/(5*Recall+Precise)
F12=5*Recall*Precise/(2*Recall+3*Precise)
其中,Precise为准确率,Recall为召回率.
F11是label=1或0的F1值,F12是pred=1或0的F1值.


数据清洗:

比赛的题目是高潜用户的购买意向的预测,从机器学习的角度来讲我们可以认为这是一个二分类的任务.那么我们就是尝试去构建自己的正负样本.
由于我们拿到的是原始数据,里面存在很多噪声,因而第一步我们先要对数据清洗,比如说:
    评论 4
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值