电商风控赛事亚军方案分享！

最新推荐文章于 2025-04-21 16:45:18 发布

原创

最新推荐文章于 2025-04-21 16:45:18 发布 · 2.4k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #大数据 #机器学习 #人工智能 #深度学习

本文分享了一支参赛队伍在电商风控赛事中的解决方案，包括赛题理解、数据理解、调优策略与工程实践。他们通过数据增广、特征筛选、算法优化（如DeepWRN网络）和工程优化（如推理前预热）提升模型性能，并讨论了模型解释和工程挑战。最终，他们在比赛中取得了亚军的成绩。

Datawhale干货

作者：许汝超，广州大学，Datawhale成员

本次 Apache Flink 极客挑战赛暨 AAIG CUP——电商推荐“抱大腿”攻击识别赛题以电商推荐反作弊为背景，要求选手在少样本、半监督、隐私保护的场景下搭建风控模型来实时预测用户点击商品的行为是否恶意，实现对恶意流量的实时识别。下面分享一下我们队伍对本次比赛的理解和详细方案。

代码开源地址：

https://github.com/rickyxume/TianChi_RecSys_AntiSpam

实践背景

1.1 思路简述

本赛题属于结构化数据二分类任务，虽然是风控竞赛，但思考方向不局限于欺诈检测或异常检测，还可以参考推荐系统里的CTR预估、交互序列建模和图建模等方向，可能会有更多启发。Apache Flink 极客挑战赛毕竟是个算法和工程并重的比赛，所涉及到的技术点也主要是在算法和工程两个方面。

算法上涉及数据增广、降噪、类别不平衡、半监督学习、增量训练、模型剪枝、压缩和加速等。

工程上涉及写 FlinkSQL 在线特征工程、Flink 性能调优、Ai Flow 工作流定义、Occlum 搭建TEE、Analytics Zoo Cluster Serving 分布式推理调用、模型pb文件冻结和 Docker 的使用等。

1.2 赛题理解

电商风控业务背景

众所周知，电商平台会基于用户点击商品的行为来做个性化推荐，而一些不怀好意的商家可能想要推销自己的低质量商品，就在黑产市场买一个提高商品流量曝光的服务，具体操作就是雇佣一批黑产用户（可能是机器，也可能是肉鸡）去协同点击目标商品（即商家想要提升曝光度的商品）和爆款商品来提高电商平台推荐系统中两商品间的I2I关联分，用大白话来说就是“蹭流量”，通过这种方式干扰推荐系统来给恶意商家的商品更多曝光，极易误导消费者以爆款心理购买到劣质商品，影响平台治理，有损用户利益，所以需要风控系统去实时识别用户行为来过滤恶意流量。

恶意点击判定逻辑

理解打标签的逻辑对于理解赛题数据至关重要。

对于本赛题中的数据标签，仅当 user 和 item 满足均为恶意的条件，即恶意用户点击恶意商家的商品时，该点击行为才是恶意的，也就是图例中间三条红线才是恶意点击（label = 1），而其余情况，包括图中剩下的三条蓝线，都不算恶意点击（label = 0）。

评估指标及风控要求

本赛题对风控系统的安全和性能都有较高要求，需要在保证模型和数据安全的前提下，及时并准确地拦截恶意流量，实现实时风控。

环境要求：Occlum HW 模式（即在TEE下运行）
技术组件要求：必须使用 AI Flow 定义整个工作流，预测过程必须使用 Flink 作为实时计算引擎，其核心预测过程使用 Cluster Serving 完成。
时间限制：第一阶段训练推理时间不限，第二阶段训练推理限时15min，总时长不超过2h。
评估指标：，即两阶段F1得分与延迟符合要求（500ms以内)的数据占比的乘积之和

1.3 数据理解

数据描述

赛方提供匿名处理后的结构化数据，以供选手程序用于离线训练和在线推理，包含uuid、用户访问商品时间、用户id、商品id、商品及用户属性特征和标签，各字段描述如下：

字段	含义
uuid	数据集中唯一确认每条数据的id。
visit_time	该条行为数据的发生时间。实时预测过程中提供的数据的该值基本是单调递增的。
user_id	该条数据对应的用户的id
item_id	该条数据对应的商品的id
features	该数据的特征，复赛中，包含152个用空格分隔的浮点数。其中，第1 ~ 72个数字代表商品的特征，第73 ~ 152个数字代表用户的特征。
label	值为0、1或-1，1代表该数据为恶意行为数据，0为正常，-1则表示数据未标注。