阿里移动推荐算法大赛总结

本文总结了阿里移动推荐算法大赛的赛题、数据集分割、特征构建、数据预处理、模型选择与调参、个人尝试及比赛收获。通过详细分析用户、商品、协同及类别特征,探讨了数据处理与模型融合的重要性,强调特征构建对模型预测的决定性作用。在模型选择上,GBDT表现优于随机森林,特征的精细化处理和模型融合能进一步提升预测精度。

一、 赛题说明

1. 竞赛题目

在真实的业务场景下,我们往往需要对所有商品的一个子集构建个性化推荐模型。在完成这件任务的过程中,我们不仅需要利用用户在这个商品子集上的行为数据,往往还需要利用更丰富的用户行为数据。定义如下的符号:

  • U:用户集合
  • I :商品全集
  • P:商品子集,P ⊆ I
  • D:用户对商品全集的行为数据集合

那么我们的目标是利用D来构造U中用户对P中商品的推荐模型。

2. 数据说明

数据主要包含两个部分。第一部分是1000万用户在商品全集上的移动端行为数据(D),包含如下字段:

字段 字段说明 提取说明
user_id 用户标识 抽样&字段脱敏
item_id 商品标识 字段脱敏
behavior_type 用户对商品的行为类型 包括浏览、收藏、加购物车、购买,对应取值分别为1,2,3,4
user_geohash 用户位置的空间标识,可以为空 由经纬度通过保密的算法生成
item_category 商品分类标识 字段脱敏
time 行为时间 精确到小时级别

实例如:
141278390,282725298,1,95jnuqm,5027,2014-11-18 08
这些字段中behavior_type字段和time字段包含的信息量最大,user_geohash字段由于缺失值太多,基本没法使用。

第二个部分是商品子集(P),包含如下字段:

字段 字段说明 提取说明
item_id 商品标识 抽样&字段脱敏
item_geohash 商品位置的空间信息,可以为空 由经纬度通过保密算法生成
item_category 商品分类标识 字段脱敏

实例如:
117151719,96ulbnj,7350

训练数据包含了抽样出来的一定量用户在一个月时间(11.18~12.18)之内的移动端行为数据(D),评分数据是这些用户在这个一个月之后的一天(12.19)对商品子集(P)的购买数据。参赛者要使用训练数据建立推荐模型,并输出用户在接下来一天对商品子集购买行为的预测结果。

3. 评估指标

比赛采用经典的精确度(precision)、召回率(recall)和F1值作为评估指标。具体计算公式如下:
这里写图片描述
其中PredictionSet为算法预测的购买数据集合,每条记录包含用户id和商品id两个字段,即表示预测某用户会在12月19日购买某商品;ReferenceSet为真实的答案购买数据集合。

二、 数据集分割

1. 日期分割

我们总共获得了1000万用户在一个月的行为数据(11.18~12.18),需要预测的是在12月19日用户的购买情况,因而我们采用滑窗的形式来构造训练集和预测集。

这里写图片描述

  • 线下
    Train Feature Span :11.18

评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值