本贴为Datawhale河北邀请赛组队学习的学习笔记,原文章详见:https://tianchi.aliyun.com/notebook-ai/detail?postId=95456
赛题理解
-
比赛:河北高校邀请赛-二手车交易价格预测,大赛组织为Datawhale 和 Tianchi天池
-
地址:https://tianchi.aliyun.com/competition/entrance/531858/introduction
-
比赛任务是预测二手车交易价格,属于回归问题,数据来自某交易平台二手车交易记录,总数居超过40w,包括39列信息变量,其中24列为匿名变量。其中,15万条数据为训练集,5万条作为测试集A,5万条作为测试集B,同时对name,model,brand,regionCode等信息进行了脱敏。
-
下图为字段表
-
注意:图中某些变量范围并非数据集中变量的范围
-
比赛排名测评标准:
-
结果提交格式:
评估指标学习
分类算法评估指标
-
对于二分类:
- accuracy, [Precision,Recall,F-score,Pr曲线],ROC-AUC曲线。
-
对于多分类
- accuracy, [宏平均和微平均,F-score]。
-
学习博客:https://zhuanlan.zhihu.com/p/267901426
# accuracy ,即准确率,最简单、基本的指标
import numpy as np
from sklearn.metrics import accuracy_score
y_pred = [0,1,0,1]
y_true = [0,1,1,1]
print('accuracy= ',accuracy_score(y_true,y_pred))
# accuracy_score(y_true,y_pred) 和 accuracy_score(y_pred,y_true) 的结果是一样的
## Precision,Recall,F1-score
from sklearn import metrics
y_pred = [0, 1, 0, 0]
y_true = [0, 1, 0, 1]
print('Precision',metrics.precision_score(y_true, y_pred))
print('Recall',metrics.recall_score(y_true, y_pred))
print('F1-score:',metrics.f1_score(y_true, y_pred))
## AUC
import numpy as np
from sklearn.metrics import roc_auc_score
y_true = np.array([0, 0, 1, 1])
y_scores = np.array([0.1, 0.4, 0.35, 0.8])
print('AUC socre:',roc_auc_score(y_true, y_scores))
回归指标学习
- 平均绝对误差,(Mean Absolute Error, MAE)
- 均方误差(Mean Squared Error, MSE)
- R2(R-Square)
- 博客:https://blog.youkuaiyun.com/weixin_45488228/article/details/98897061
注意:在回归预测中,模型常常使用MSE作为指标训练