数据科学中的可视化探索与内在维度估计
1. 可视化探索
在数据科学中,可视化探索是理解和分析数据的重要手段。
1.1 颜色映射
颜色映射在数据可视化中起着关键作用。不同类型的颜色映射适用于不同的场景:
- 亮度和饱和度变化 :可以通过亮度或饱和度的规则变化来获得合适的颜色映射。经验研究表明,基于亮度的颜色渐变更适合映射高空间频率变化的变量,而基于饱和度(等亮度)的颜色渐变更适合低空间频率的变量。等亮度属性在三维表示中也很有用,因为亮度在感知上与立体深度相关。
- 顺序和发散颜色渐变 :顺序颜色渐变从最小值到最大值连续变化,通常用单一色调和亮度或饱和度的单调变化来编码。相反,发散颜色渐变对应于围绕中心值(如零或变量的平均值)的对称变化,在中心值两侧使用两种相反的色调,并在远离中心值时亮度或饱和度单调变化。
- 现成颜色映射和定制工具 :有许多由设计师手工制作的现成颜色映射,具有良好的感知特性,有些还对色盲友好。此外,也开发了一些工具,帮助普通用户自动构建适合其特定需求的个性化颜色映射。还有二维和三维颜色方案可用于表示两个或三个变量的共同演变。
1.2 多协调视图和视觉交互
数据的可视化探索不必依赖单一表示,可同时使用多个视图。
- 多视图类型 :视图可以是相同类型的视觉编码,用于表示数据的不同特征,也可以是不同类型的表示。例如,可以将降维得到的二维散点图与高维数据的平行坐标表示相结合。
- 用户交互操作