此次赛题内容为二手车价格预测,本节主要理解字段及赛题要求。
数据字段
- SaleID - 销售样本ID
- name - 汽车编码
- regDate - 汽车注册时间
- model - 车型编码
- brand - 品牌
- bodyType - 车身类型
- fuelType - 燃油类型
- gearbox - 变速箱
- power - 汽车功率
- kilometer - 汽车行驶公里
- notRepairedDamage - 汽车有尚未修复的损坏
- regionCode - 看车地区编码
- seller - 销售方
- offerType - 报价类型
- creatDate - 广告发布时间
- price - 汽车价格
- v_0', 'v_1', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12', 'v_13','v_14' 【匿名特征,包含v0-14在内15个匿名特征】
数字全都脱敏处理,都为label encoding形式,即数字形式
常见分类算法的评估指标:
- 对于二类分类器/分类算法,评价指标主要有accuracy,[precision,Recall,F-score,Pr曲线],ROC-AUC曲线
- 对于多类分类器/分类算法,评价指标主要有accuracy,[宏平均和微平均,F-score]
常见的回归预测类评估指标:平均绝对误差(MAE),均方误差(MSE),平均绝对百分误差(MAPE),均方根误差,R2(R-Square)