2018中国高校计算机大赛—大数据挑战赛(top2解题方案)

本文回顾了2018年中国高校计算机大赛—大数据挑战赛,参赛者通过深入分析数据,利用滑动窗口策略划分训练集与测试集,识别并过滤异常用户,构建时间与空间维度的特征,并使用LightGBM和神经网络模型融合提升预测效果,最终获得亚军。比赛中对数据的理解、用户分类和特征工程成为关键。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

比赛链接:https://www.kesci.com/home/competition/5ab8c36a8643e33f5138cba4/leaderboard/1

相关链接:https://mp.weixin.qq.com/s/fSRB5T3himBEYrLwW9p62A

比赛介绍:https://mp.weixin.qq.com/s/vYtcnwLtHsb70viejBR3Rw

经过激烈的竞争,从俩千多人,一千二百多支队伍,从初赛到复赛再到决赛的答辩,最终拿到了第二的名次,虽然有点遗憾,但参加这个比赛收获了很多,对大数据领域又有了新的认识,在过程中,最重要的是坚持,有新的想法要敢于尝试。总结一下,个人觉得数据挖掘类的题目更多的应该先去了解数据,理解数据,对所涉及的业务场景有一定的了解,这样在特征工程的时候可以更合理的构造出强特出来,同时掌握一些必备的统计知识,用来构造基础特征也是必备的,除此之外,多学习一些经典算法,对构造特征也非常有用。以下分享一下该比赛的思路。

解题思路 :

题目是给定1-30天时间内的四个日志数据,通过这些数据来预测未来一段时间(即31-37天)活跃(即出现在以上四个日志中任意一个)的用户。经过分析,判定该问题是一个典型的二分类问题,也就是说给定一个用户id,让我们来预测这个用户是活跃或者不活跃。那么首先考虑如何构造出线上线下的训练集以及它的标签,还有线上线下测试集以及它的标签。

一、滑动窗口

     

图(一)

如图一所示,我们采用滑动窗口的算法思想,给定a到b,也就是1-30天区间,我们定义n和m,其中n是构造训练集或验证集的区间,紧接着的后7天是构造标签的区间。其中,n小于等于23,m大于等于0。这样满足这种条件的我们可以滑动出很多个窗口,理论上讲这样我们训练集的样本可

### 微信大数据挑战赛概述 微信大数据挑战赛是一项专注于实际应用场景的大规模数据竞赛活动,其核心目的是通过解决真实的业务问题来提升参赛者的数据分析和技术实现能力。以下是关于参赛规则、比赛题目和数据集的具体介绍。 --- #### 一、参赛规则 微信大数据挑战赛的参赛规则设计灵活且包容性强,鼓励不同背景的技术爱好者共同参与。具体规则如下: - **参赛对象**: 大赛面向高校学生及社会人士开放,不限制专业背景或学历层次[^2]。 - **团队组成**: 参赛者可以个人形式或者组队形式报名,每支队伍的人数一般不超过三人。 - **时间安排**: 比赛通常分为初赛、复赛和决赛三个阶段。各阶段的时间节点会在官方通知中明确公布。 - **成果提交**: 初赛阶段需要提交详细的解题思路文档以及代码实现;复赛则进一步深化模型优化并准备答辩材料;决赛环节要求选手在线上或线下环境中进行方案讲解与问答互动[^2]。 --- #### 二、比赛题目 本次微信大数据挑战赛的核心主题聚焦于社交媒体中的推荐系统构建——即“微信视频号推荐算法”。这一命题来源于现实世界的应用需求,具有高度实用价值。 - **任务描述**: 需要开发一种高效的多目标预测机制,用于评估用户对于特定短视频内容可能产生的多种行为倾向(如点赞、评论、分享等)。这不仅考验了参赛人员对复杂网络结构的理解力,也对其捕捉细微交互信号的能力提出了更高要求。 --- #### 三、数据集 为了帮助参赛者更好地理解问题域并验证各自提出的理论框架有效性,主办方提供了高质量的真实环境样本集合作为支撑资源之一部分详情如下所示: - **数据构成**: 主要包括但不限于用户的浏览记录、点击偏好以及其他关联属性字段等内容。这些信息经过脱敏处理后被整理成标准化表格供下载使用。 - **访问权限**: 所有注册成功的参赛队伍均可免费获取完整的训练集与测试集文件链接地址及相关API接口调用指南说明文档[^2]。 ```python import pandas as pd # 加载示例数据集 train_data = pd.read_csv('path/to/train.csv') test_data = pd.read_csv('path/to/test.csv') print(train_data.head()) ``` 上述代码片段展示了如何利用Python库Pandas加载本地存储的比赛所提供的CSV格式数据文件的一个简单例子。 --- #### 四、总结 综上所述,微信大数据挑战赛凭借其贴近实战的操作模式吸引着众多热爱技术创新的年轻人踊跃加入其中。无论是从选题方向还是配套资料供给方面来看,它都能够很好地服务于培养下一代顶尖科技人才的目标设定之上。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值