1st Competition of Datawhale: the car price prediction

最新推荐文章于 2023-03-19 21:00:36 发布

原创

最新推荐文章于 2023-03-19 21:00:36 发布 · 1.5k 阅读

1 ·

CC 4.0 BY-SA版权

本文记录了一次数据竞赛的过程，包括组队、初步数据探索(EDA)和遇到的问题。作者通过环境配置，如切换到Jupyter和调整主题，解决了代码显示问题。在数据探索中，作者学习了缺失值处理、异常值检测和统计图表工具如missingno和seaborn的使用。此外，还涉及了特征工程，如异常值处理、Box-Cox变换等。通过直播学习，了解了特征工程的重要性和不同方法，如异常值处理、缺失值填充、数据分桶和特征构造等。

1st Competition of Datawhale: the car price prediction

Task1 参赛组队
Task 2 初步EDA，学习成果以blog的形式进行沉淀
参考资料：精通特征工程一书
3月23号晚上直播内容知识
task3 特征工程
3月26日晚上直播

这里将作为整个赛程的总结。其中会遇到很多沟沟坎坎。望努力，最后通关，自己得到提升。

Task1 参赛组队

第一步就是参加比赛，组成队伍，确定队名我自己的编号。

我在3群，编号113。
队长队友都很好，早早就把baseline贴出来了。但是无奈信息对于我这个新手来说还是太多了。
3-27更新：Markdown文本的格式说明

Task 2 初步EDA，学习成果以blog的形式进行沉淀

这里的问题就比较多了。先说目标吧。2天时间是要跑一遍的，我的进度已经被群里的大神们甩开了。接下来就记录下我遇到的坑吧

先说环境配置

原先我用win10 + pycharm。结果遇到一行代码，就是baseline里的“%”。

warnings.filterwarnings('ignore')
%matplotlib inline

没见过啊，internet后发现是Jupyter的代码。于是考虑后期的更改，跟大家同步的话，果断开始配置Jupyter。

导入了一些没有的库，如lightgbm xgboost missingno；
360浏览器默认打开Jupyter让我很不爽，更改为chrome (https://cloud.tencent.com/developer/article/1420759)
Jupyter原来配色太刺眼，添加theme，并修改字体
- pip install --upgrade jupyterthemes
- jt -t oceans16 -f fira -fs 12 -cellw 90% -ofs 10 -dfs 11 -T (修改了一堆没用过的参数）
IPython 因为导入不正确又用terminal导入了一遍。
Jupyter的快捷键链接

环境舒服了就开始过baseline

坑一# 数据文件地址

copy代码进去发现两个错误：出现了FileNotFoundError

Train_data = pd.read_csv('datalab/231784/used_car_train_20200313.csv', sep=' ')
TestA_data = pd.read_csv('datalab/231784/used_car_testA_20200313.csv', sep=' ')
```-
回去找datalab，看不懂了。没见到Jupyter环境里有个datalab的库或者文件夹。
```javascript
# 查看数据文件目录 list datalab files
!ls datalab/

链接: 知乎上有关于这个"!"感叹号的说明。这里埋伏了shell与IDLE的交互问题
datalab的问题，是队长找到了datalab是天池上数据的文件夹名称，是对于天池参赛队伍的。
我后来反应过来，感觉像是服务器实验室之类的数据空间，供大家调用之类的。

前期队长down下来了csv数据。这里就把地址更改为本地地址。（主要是我的Jupyter的工作目录页比较深）

## 通过Pandas对于数据进行读取 (pandas是一个很友好的数据读取函数库)
Train_data = pd.read_csv('C:/Users/***/Desktop/DataWhale/Jupyter_datawhale/used_car_train_20200313.csv', sep=' ')
TestA_data = pd.read_csv('C:/Users/***/Desktop/DataWhale/Jupyter_datawhale/used_car_testA_20200313.csv', sep=' ')

如何查看隐藏列

然后顺利看到下图，等一等，省略内容没显示全。没关系，设置一下。
去查看head（）命令的参数
添加以下命令，设定显示列数为31。这里捎带修改了行数，多看了5行。

pd.set_option('max_column', 31)  # 31 is optional
Train_data.head(n=10)  # display 10 rows

在这里插入图片描述

坑二# 老版本pdf格式的文档代码查看不全。转战到天池的官方维护文档去。而且还是最新的版本五。

理解missingno工具

msno.matrix(Train_data.sample(250))

无效矩阵的数据密集显示，理解了中间黑色的部分意思是满的，白色部分是缺失的。同时右侧的The sparkline(迷你图) at right summarizes the general shape of the data completeness and points out the rows with the maximum and minimum nullity（无效[数] 零度；退化阶数） in the dataset.
This visualization will comfortably accommodate up to 50 labelled va

最低0.47元/天解锁文章