数据规范化
快速查看数据是否存在缺失值
.T 矩阵中转质 把行变成列, 把列变成行
实例代码
import numpy as np
data = np.matrix([[1,2,3],
[4,5,6]])
data.T
([[1,4],
[2,5],
[3,6]])
123本来是行变成了列
I 转质
explore = data.describe(percentiles = [], include = 'all').T #包括对数据的基本描述,percentiles参数是指定计算多少的分位数表(如1/4分位数、中位数等);T是转置,转置后更方便查阅
——————————————————————————————————————————————————————————
II 构建一个新字段,用数据得长度-describe的长度
explore['null'] = len(data)-explore['count'] #describe()函数自动计算非空值数,需要手动计算空值数
————————————————————————————————————————————————————————————————
III 构建号了以后 只取出里面的空,最大值,最小值3个值
explore = explore[['null', 'max', 'min']]
explore.columns = [u'空值数', u'最大值', u'最小值'] #表头重命名
标准化数据
(data-mean)/ std
聚类评级
(b-a)
————
max(ab)