统计图可视化
数据变换
归一化
目的:
根据分布映射数据
颜色/尺寸/坐标位置编码
归一化区间:
[-1 , 1]
[0 , 1]
曲线拟合/光滑
目的:展示数据趋势
不同的拟合方式:
统计采样
从统计分布中选出的样本,用于近似原分布中的特征
影响采样的因素:
分布本身的特性
数据的测量精度
是否需要分析样本细节(样本精细度)
采样成本
K-Means聚类
K-means
随机产生K个中心位置
将每个数据点归为距离最近的中心位置所属的类
根据新的类别划分重新计算中心位置
回到第二步,直到满足一定约束
K-medoids – 改进
中心位置必须在数据点所在位置上
中心位置满足“到类内所有数据点的距离之和最小”
统计图表
中值斜率倾斜:
平均斜率倾斜:
平均方向倾斜:
横纵比倾斜:
多尺度45°倾斜
为不同的规模优化横纵比
方法:
鉴别感兴趣数据的尺度
生成特定规模的趋势线
把这些线向45°倾斜
过滤生成的横纵比
Log尺度:容易比较所有数据
尺度中断:很难跨越中断比较所有数据