菜鸟的数据挖掘实战(一)赛题理解“捏泥人”

  • 学习框架:零基础入门数据挖掘-菜鸟的学习路径
  • 这是一个菜鸟的数据挖掘实战记录,目的是快速入门数据挖掘,少走弯路。内容上,由于自己的确是菜得不行,所以在跟随入门级比赛:二手车价格预测进行实战中,会重点叙述学习方法和思路,并补充其他学习资料。
  • 内容预计分为六篇正文,本篇是第一篇正文,介绍赛题与具体学习方法。

1. 学习重点

  • 了解一个数据挖掘项目的基本流程
  • 赛题理解的目的与方法
  • 各评价指标的适用范围

2.赛题理解

2.1赛题概况

要求通过给定的二手车数据集,预测二手车交易价格。
数据集来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。

2.2数据概况

了解数据的性质有利于对数据的理解和后续分析。这一步看数据有哪些、表示什么意思,由于包括类型数据在内的所有数据都脱敏成了数字形式(即label encoding),还需要了解数字含义。
Tip:匿名特征,就是未告知数据列所属的性质的特征列。

数据预览

比赛一般提供两个数据集:

  • used_car_train.csv: 这是训练集部分,包含变量信息与价格。
  • used_car_test.csv: 这是测试集部分,与训练集类似,但没有价格信息(需要建模预测),一般样本数较少。

我们看一下训练集(train)的数据:

Field Description
SaleID
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值