数据解读乡村发展!专家详解 2024 年(第 17 届)中国大学生计算机设计大赛大数据主题赛赛题

2024 年(第 17 届)中国大学生计算机设计大赛大数据主题赛“数据解读乡村发展”赛题已于和鲸平台正式开赛,一月来,已有来自全国超百所高校的优秀本科生积极响应大赛号召完成报名

为进一步使广大师生对于赛题主旨形成更清晰的认知,同时拓宽参赛答题思路,3 月 1 日,和鲸作为大赛协办方特邀中国人民大学数据工程与知识工程教育部重点实验室范举教授,以线上直播培训的形式进行了详尽的赛题讲解。为将范教授的培训内容辐射更多参赛师生,现特发布本篇文字实录,文末更有培训视频回放及往届优秀选手经验分享直播预告,敬请参与。


感谢提供此次交流机会,本次交流的核心是对赛题进行解读。我将与各位分享三个关键点:首先,赛题本身希望大家做什么;其次,作品应该包含哪些核心组成部分,也就是作品提交的具体要求;最后,也是大家普遍关注的,大赛评审作品的过程中会侧重哪些关键点。现在,我将从赛题出发,逐一阐述这三个基本问题。

赛题希望大家做什么

首先,是对赛事的基本介绍,在场的教师、学生对于大数据主题赛应该并不陌生,主题赛至今已经成功举办了三届,在这三届中,无论是参与人数、作品数量还是获奖作品数量,均呈现出显著的增长趋势。在此,我想进一步强调大数据主题赛的特点,其与大数据实践赛,或其它使用计算机技术完成模型或作品的赛事略有不同,大数据主题赛更侧重于“分析”,且具有明确的主题性。主题赛为参赛者提供一个主题及与之相关丰富数据集,期望参赛者围绕该主题撰写分析报告;参赛者需从所提供的原始数据中提炼信息,并揭示数据内部蕴含的规律,或发现解决特定问题的关键要点。因此,大赛提供数据集及统一的开发环境都是为了让参赛者能够更专注于问题的切入、分析及解决

探索数据、发现问题

这里就点出了以下三个关键要点。首先,是需对数据进行深入探索并发现问题。

以本次赛题“数据解读乡村发展”为例,其核心目标是希望引导参赛者聚焦“乡村发展”这一相对宽泛的主题,采用跨学科、多维度的视角制定有针对性的策略,自选维度撰写出大数据分析报告。既往实践中,我们常发现有参赛者将大赛所提供的所有相关数据集进行下载,依次利用数据可视化手段生成线型图、柱状图、柄图等各类图表,随后进行看图说话,比如,某数据集具有某几个特点,呈现出一个逐年增长或下降的趋势——参赛者认为这已经构成了一份完整的数据分析报告——但这种做法实际上是并不充分的,这也是大赛强调探索数据并发现问题重要性的原因,参赛者应在主题内寻找合适的选题切入点。

为了帮助参赛者更好地理解这一点,我们提供了一些可供参考的思考维度,例如,乡村建设。乡村建设是实施乡村发展战略的重要任务,其中会存在诸多问题,如土地资源利用效率低、生态环境问题或乡村美誉问题——这些具体的维度可以帮助参赛者探索更明确的问题。

AliDMCompetition 阿里巴巴大数据(http://102.alibaba.com/competition/addDiscovery/index.htm ) 数据说明 提供的原始文件有大约4M左右,涉及1千多天猫用户,几千个天猫品牌,总共10万多条的行为记录。 用户4种行为类型(Type)对应代码分别为: 点击:0 购买:1 收藏:2 购物车:3 提交格式 参者将预测的用户存入文本文件中,格式如下: user_id \t brand_id , brand_id , brand_id \n 上传的结果文件名字不限(20字以内),文件必须为txt格式。 预测结果 真实购买记录一共有3526条 TODO 注意调整正负样本比例 在LR的基础上做RawLR。按照天猫内部的思路来。 在LR的基础上做MRLR,样本提取要更加合理。 在UserCF和ItemCF上加上时间因子的影响。 利用UserCF做好的用户聚类、ItemCF做好的品牌聚类来做细化的LR,或者在聚类 上做LFM 在ItemCF的思路上挖掘频繁项集/购买模式,如购买品牌A和商品后往往会购买 品牌B的商品 LFM 数据集特征 某一商品在购买前的一段时间内会出现大量点击次数,购买完成后的一段时间内也会出现大量点击次数 用户在本月有过行为的商品极少出现在下个月的购买列表里 根据观察推断:用户浏览商品的行为可分为两类: 无目的浏览,可能会在浏览过程中对某些中意的商品进行购买,数据表现为有大量点击次数<=2的行为记录,但很少有购买行为 有目的的查找商品,可能是事先有需求的情况,数据表现为一段时间内点击商品数很少, 但点击过的商品大多数都进行了购买 参考论文 See https://www.google.com.hk/search?q=data+mining+time+series&ie=utf-8&oe=utf-8&aq=t for more. Chapter 1 MINING TIME SERIES DATA - ResearchGate 模型列表 LR(model=LinearSVC(C=10, loss='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 1438 1436 626 71 12 | % 100% 99.861% 43.533% 4.937% 0.834% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 76 Precision 5.285118% Recall 5.797101% F1 Score 5.529283% LR(model=LogisticRegression(penalty='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 1472 1470 615 68 14 | % 100% 99.864% 41.780% 4.620% 0.951% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 74 Precision 5.027174% Recall 5.644546% F1 Score 5.318002% 这个模型在数据变成2次后,Precision ~ 16%,同时F1 ~ 3% LR(model=Perceptron(penalty='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 3145 3140 1023 130 26 | % 100% 99.841% 32.528% 4.134% 0.827% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 113 Precis
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值