为了生成最优化的算法模型,必须对数据进行理解。最快,最有效的方式是通过
数据的可视化来加强对数据的理解。这里将介绍如何通过Matplotlib来可视化数据,
以加强对数据的理解。数据集不限。
单一图标
from pandas import read_csv
from pandas import read_excel
from sklearn import datasets
import matplotlib.pyplot as plot
# 显示数据的前10行
filename = 'F:/bglearn/pythonml/0417/zoulang.xls'
# names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
names = [1,2,3,4,5]
data = read_excel(filename,names = names)
#直方图:判断数据是高斯分布,指数分布还是偏态分布
data.hist()
plot.show()
#密度图:类似于对直方图进行抽象
data.plot(kind = 'density',subplots = True,layout = (3,3),sharex = False)
plot.show()
#箱线图:首先画一条中位数线,然后以下四分位数和上四分位数画一个盒子,上下各有一条横线,表示上边缘和下边缘,通过横线来显示数据的伸展状况,游离在边缘之外的点位异常值
data.plot(kind = 'box' , subplots = True , layout = (3,3) , sharex = False)
plot.show()
多重图表
1.**相关矩阵图**
主要展示两个不同属性相互影响的程度。如果两个属性按照相同的方向变化,说明是正向影响。
如果两个属性朝相反方向变化,说明是反向影响。把所有属性两两影响的关系展示出来的图标
叫相关矩阵图。矩阵图法就是从多维度问题的事件中找出成对的因素,