数据分析为了使我们更加熟悉数据集,发现数据的特点规律,查看数据集的属性,对数据进行预处理,以使得后续的机器学习或深度学习结果更加达到预期。
以二手车交易价格预测数据为例,数据地址:
https://tianchi.aliyun.com/competition/entrance/231784/information
1、首先导入各种数据科学以及可视化库:
常用数据科学库 pandas、numpy、scipy;可视化库 matplotlib、seabon;
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno
2、载入数据,使用pandas读入csv数据
Train_data = pd.read_csv('./data/used_car_train_20200313.csv', sep=' ')
3、查看数据的维度信息
Train_data.shape
(150000, 31)
数据有150000行和31列
4、简单的查看数据的前5行和后5行的数据信息
Train_data.head().append(Train_data.tail())

5、进一步,可以通过pandas种的describe()来熟悉数据的相关统计量,包括以下内容,count:非空值总数、mean:非空值的平均值、s

最低0.47元/天 解锁文章
5573

被折叠的 条评论
为什么被折叠?



