本学习笔记为阿里云天池龙珠计划数据挖掘训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampdm
一.学习知识点概要:
理解赛题数据和目标,清楚评分体系,熟悉比赛流程。
二.学习内容
1.了解赛题
(1).赛题概况
根据给定的数据集,建立模型,二手汽车的交易价格。
来自 Ebay Kleinanzeigen 报废的二手车,数量超过 370,000,包含 20 列变量信息,为了保证 比赛的公平性,将会从中抽取 10 万条作为训练集,5 万条作为测试集 A,5 万条作为测试集 B。同时会对名称、车辆类型、变速箱、model、燃油类型、品牌、公里数、价格等信息进行 脱敏。
(2).数据概况
对于数据在比赛界面都有对应的数据概况介绍(匿名特征除外),说明列的性质特征。了解列的性质会有助于我们对于数据的理解和后续分析。
(3).预测指标
A赛题的评价标准为MAE(Mean Absolute Error):

其中yi代表第i个样本的真实值,其中^yi代表第i个样本的预测值。
B.一般问题评价指标说明:
评估指标就是我们对于一个模型效果的数值型量化。一般来说分类和回归问题的评价指标有如下一些形式:
a.分类算法常见的评估指标如下:
- 对于二类分类器/分类算法,评价指标主要有accuracy, [Precision,Recall,F-score,Pr曲线],ROC-AUC曲线。
- 对于多类分类器/分类算法,评价指标主要有accuracy, [宏平均和微平均,F-score]。
b.对于回归预测类常见的评估指标如下:
平均绝对误差(Mean Absolute Error,MAE),均方误差(Mean Squared Error,MSE),平均绝对百分误差(Mean Absolute Percentage Error,MAPE),均方根误差(Root Mean Squared Error), R2(R-Square)
- 平均绝对误差 (Mean Absolute Error,MAE):平均绝对误差,其能更好地反映预测值与真实值误差的实际情况,其计算公式如下:

- 均方误差 (Mean Squared Error,MSE)其计算公式为:

- R2(R-Square)的公式为: 残差平方和:

总平均值:
得到R2表达式为:

R2用于度量因变量的变异中可由自变量解释部分所占的比例,取值范围是 0~1,R2越接近1,表明回归平方和占总平方和的比例越大,回归线与各观测点越接近,用x的变化来解释y值变化的部分就越多,回归的拟合程度就越好。所以R2也称为拟合优度(Goodness of Fit)的统计量。
yi表示真实值,^yi表示预测值,¯¯¯yi表示样本均值。得分越高拟合效果越好。
(3).分析赛题
- 此题为传统的数据挖掘问题,通过数据科学以及机器学习深度学习的办法来进行建模得到结果。
- 此题是一个典型的回归问题。
- 主要应用xgb、lgb、catboost,以及pandas、numpy、matplotlib、seabon、sklearn、keras等等数据挖掘常用库或者框架来进行数据挖掘任务。
- 通过EDA来挖掘数据的联系和自我熟悉数据。
2.代码展示
(1).数据读取pandas.


(2).分类指标评价计算示例


(3). 回归指标评价计算示例

三.学习问题与解答
在CSV文件的导入时,路径出现了错误,导致后续任务无法完成。通过自己的研究和尝试后,成功导入了数据集,并顺利完成相关任务。
四.学习思考与总结
本次任务使我掌握了分类指标评价和回归指标评价的方法,通过对数据的分析和解读,对赛题有了初步的理解。
文章部分来源:
--- By: AI蜗牛车
PS:东南大学研究生,研究方向主要是时空序列预测和时间序列数据挖掘
公众号: AI蜗牛车
知乎: https://www.zhihu.com/people/seu-aigua-niu-che
github: https://github.com/chehongshu
4323

被折叠的 条评论
为什么被折叠?



