学习视频:【课程合集】大数据博士教你可视化图表选择
可视化图表的选择
分布型图表
1. 直方图
- 对数据分组后,统计每个分组的数据量
注意:与柱状图区分
2. 概率密度图
- 通过核密度估计方法(KDE),估计出数据的概率分布情况
- 每个样本点,会对总体的概率分布,产生同昂的影响,也就是“核(Kernel)”。
经常使用的是高斯核,正态分布 - 这些“核”叠加起来,就成为了数据总体的分布。
注意:
- 每个核的大小选择,会强烈地影响从KDE获得地估计
概率密度图(二维)
- 一维地曲线,扩展到二维的情况下,就变成了曲面
- 一般用等高线图可视化曲面
- 等高线图的层次数非常多时,就可以绘制出图表颜色变化非常平滑
3. 箱型图
定义:
- 学术中常用
- 可以观察到数据的大致分布情况
- 对数据的分布描述比较简单
- 如果数据呈双峰或者多峰的分布形态,则无法展示。
4. 热力图和色块图
定义:
-
色块图:xy轴为离散值
-
热力图:xy轴为连续值
热力图: -
一开始是矩形色块加上颜色
-
现在多指经过平滑模糊过的热力图谱
-
原理和概率密度图类似
构成型图表
1. 饼形、环形图
定义:
- 构成型:不同类型大小可比、值可加
- 以扇形角度大小对比分类
- 分类不宜过多
2. 堆积百分比柱状图/堆积百分比面积图
定义:
- 多个分组均需要展示构成
- 多组之间进行比较
- 不同分类下,相同维度的数据不是按照同一基准线对齐
- 堆叠太多时,会导致数据很难区分对比
联系型图表
1. 关系图
- 数据样本与样本之间,存在一定联系
- 由节点(Node,Vertex)和边(Edge)构成联系网络(Network),也可称之为图(Graph)
- 这些网络就是图论(Graph theory)的研究对象
关系图的特点: - 展现网络
- 也可用散点+线绘制
- 节点位置分布可控
2. 和弦图
- 节点数据沿圆周径向排列
- 节点之间使用带权重(有宽度)的弧线链接
相比关系图:
- 排版、节点、边有差异
- 数据可相同
联系型图表
1. 桑基图
- 节点之间存在层次区别
- 存在流向关系
注意: - 对数据有要求,比较少用
- 表示流量,出入相等,保持流量的平衡。
2. 旭日图
- 构成图+父子节点关系
- 环图外层再加环
- 对数据有要求,比较少用