第一次参加DC比赛总结

本文是作者参加DC比赛后的总结,主要涉及数据理解、特征工程、模型选择和评价指标。强调了数据的初步分析、时间特征处理、特征创造以及模型如Lasso、Ridge和随机森林的应用。同时,讨论了模型评价标准和特征选择方法,并分享了工作环境的比较。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一次参加DC比赛,选择一个不太难的“游戏玩家付费金额预测大赛”进行,虽说看了各种’top 1%’、’top 10%’、’top 5%’等文章,成绩依然还是不理想。总结原因发现还是在对数据的了解和特征工程技巧上没有下足功夫或者没有足够的经验,下面就细节问题和环节作简要总结。

对于数据的了解

数据的第一映像非常重要,决定了下一步数据处理和特征工程的方向,所以一定要详细充分的查看数据后再下手。
熟悉数据分为两步:
1. 数据形态(均值、最值、分布等),数据某些特征的有哪些有意思的信息(时间、坐标)
2. 数据有哪些特征(高维度、稀疏),是否需要预处理(nan、inf、离群点)
这里有个浅显的例子,适合初学者入门:

【半程彩蛋】选手分享,思路解答!

感兴趣的特征都有哪些信息,几个特征放一起能够发现什么,特征之间有无关联,最好能画张图,更加清晰直观些。这些都是需要在了解数据时有一个初步分认识。

特征工程的技巧

对于时间特征的处理技巧:

  1. 熟悉数据类型转换
    float转datatime,datatime转string,string转float
  2. 特征切片,一转多

创建特征常用方法小结

  1. 经纬度坐标转极坐标(以某一点为圆心)
  2. 统计某一特征在参考下的数量,作为新特征。以‘>某阈值’得到布尔型数据,再用values_counts()合成新特征。
  3. 特征之间通过运算得到新的特征,比如资源获取量除以在线时长得到单位时间获取速率。在特征作除法容易产生NAN\INF,要注意作筛选:
data['pve_win_percent']=data.apply(lambda x:x['pve_win_count']/x['pve_lanch_count'] if x['pve_lanch_count']!=0 else 0, axis=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值