数据挖掘-二手车交易价格预测 -Task1 赛题理解_零基础入门数据挖掘

本文链接：https://blog.youkuaiyun.com/qq_35494379/article/details/105052412

赛题：零基础入门数据挖掘 - 二手车交易价格预测
地址：二手车交易价格预测

赛题概况

比赛要求参赛选手根据给定的数据集，建立模型，二手汽车的交易价格。
来自 Ebay Kleinanzeigen 报废的二手车，数量超过370,000，包含 20 列变量信息，为了保证比赛的公平性，从中抽取 10 万条作为训练集，5 万条作为测试集 A，5 万条作为测试集 B。同时对名称、车辆类型、变速箱、model、燃油类型、品牌、公里数、价格等信息进行脱敏。

数据概况

train.csv

name - 汽车编码
regDate - 汽车注册时间
model - 车型编码
brand - 品牌
bodyType -车身类型
fuelType - 燃油类型
gearbox - 变速箱
power - 汽车功率
kilometer - 汽车行驶公里
notRepairedDamage - 汽车有尚未修复的损坏
regionCode - 看车地区编码
seller - 销售方
offerType - 报价类型
creatDate - 广告发布时间
price - 汽车价格
v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’, ‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’,‘v_14’（根据汽车的评论、标签等大量信息得到的embedding向量）【人工构造匿名特征】
数字全都脱敏处理，都为label encoding形式，即数字形式

字段表

Field	Description
SaleID	交易ID，唯一编码
name	汽车交易名称，已脱敏
regDate	汽车注册日期，例如20160101，2016年01月01日
model	车型编码，已脱敏
brand	汽车品牌，已脱敏
bodyType	车身类型：豪华轿车：0，微型车：1，厢型车：2，大巴车：3，敞篷车：4，双门汽车：5，商务车：6，搅拌车：7
fuelType	燃油类型：汽油：0，柴油：1，液化石油气：2，天然气：3，混合动力：4，其他：5，电动：6
gearbox	变速箱：手动：0，自动：1
power	发动机功率：范围 [ 0, 600 ]
kilometer	汽车已行驶公里，单位万km
notRepairedDamage	汽车有尚未修复的损坏：是：0，否：1
regionCode	地区编码，已脱敏
seller	销售方：个体：0，非个体：1
offerType	报价类型：提供：0，请求：1
creatDate	汽车上线时间，即开始售卖时间
price	二手车交易价格（预测目标）
v系列特征	匿名特征，包含v0-14在内15个匿名特征

评价指标

本赛题的评价标准为MAE(Mean Absolute Error):
MAE公式

数据读取和指标评价示例

数据读取pandas

import pandas as pd
import numpy as np
path = './data/'
## 1) 载入训练集和测试集；
Train_data = pd.read_csv(path+'train.csv', sep=' ')
Test_data = pd.read_csv(path+'testA.csv', sep=' ')
print('Train data shape:',Train_data.shape)
print('TestA data shape:',Test_data.shape)