交互式统计图形:链接视图范式详解
1 图形元素的交互调整
1.1 坐标轴信息链接与恢复
在图形比较时,建议链接坐标轴信息,以便更好地进行对比。若要恢复到原始的坐标轴刻度(“主刻度”),则需要使用特殊命令。
1.2 改变亮度
当图形元素所代表的值在当前显示的刻度上过于接近时,它们会发生重叠。此时,可以利用图形元素的亮度来可视化重叠的程度。重叠的图形元素越多,它们显示得就越亮。例如,MANET 为点图和散点图提供了色调高亮显示功能;EXPLORN 则利用 Silicon Graphics 工作站的 α 通道,通过色调和饱和度的刷选来处理平行坐标图。这两种实现方式虽技术不同,但用户都能控制饱和度(或亮度)的级别。对于稀疏图,少量重叠就应改变亮度;而对于密集图,则需要更强的重叠才会引起亮度变化。
1.3 改变配色方案
等值区域图中空间分布的感知很大程度上取决于所使用的刻度。在 MANET 中,有两个滑块可用于将数据转换为更合适的刻度。通过颜色分布的预览,能轻松找到一种转换方式,从而得到更具信息性的等值区域图。等值区域图不仅适用于连续变量,离散变量也能以同样的方式处理,形成所谓的色区图或 k - 色图。
1.4 重新格式化类型
更新模型或更改绘图类型后,常见的问题是某些图形元素可能超出框架大小,或者只覆盖框架的一小部分。这时,提供一种更新类型的选项,使图形元素恰好适合框架是很有帮助的。以直方图为例,当减小组距时,每个组的计数会减少,结果柱子可能只覆盖显示区域的底部。一种解决方法是重新缩放柱子的高度,使最高的柱子适合框架,这实际上是让坐标轴适应框架。由于直方图是密度估计器,重点在于图表所代表的面积,因此另一种重新格式化的方法是重新缩放柱子的高度,使所有柱子的总面积保持不变。
设 $h$ 表示框架中最高可能柱子的高度,$max(count)$ 表示最高柱子能代表的最大计数,$n$ 表示观测值的数量,$w_0$ 表示一个柱子的宽度。默认情况下,高度 $h$ 对应最大计数 $max(count)$。因此,原始直方图中每个案例的面积 $a_0$ 可以计算为:
[a_0 = \frac{h}{max(count)_0} \cdot w_0]
将组距更改为新值 $w_1$ 后,每个案例的面积变为:
[a_1 = \frac{h}{max(count)_0} \cdot w_1]
为了保持面积不变,$max(count)_0$ 必须替换为:
[max(count)_1 = \frac{w_1}{w_0} max(count)_0]
1.5 改变纵横比
显示的纵横比是垂直轴精度与水平轴精度的比值。通常选择这个比值是为了使垂直和水平轴的范围适合默认的框架大小。Wilkinson 指出,许多传统的绘图纵横比规定(如“使其为正方形”“使其为希腊黄金矩形”等)没有经验或理论依据。相反,纵横比应该由框架内容的感知考虑来决定,即图形的形状。一个用于改变纵横比的交互式工具可以帮助探索各种形状,并找到支持正确解释的纵横比。
1.6 数据对象排序
处理两个以上变量时,变量的顺序是一个重要问题,因为比较相邻变量要容易得多。这在平行坐标图或类似的面板图中尤为突出。可以使用多种排序标准,一些重要的统计指标如下:
1. 中位数
2. 范围
3. 高四分位数
4. 低四分位数
5. 上四分位数
6. 须的下限
7. 须的上限
2 模型层面的交互操作
2.1 更改模型
2.1.1 模型参数
许多用于图形表示的模型基于创建显示所需的参数。这些参数通常有默认值,当有交互式更改这些值的功能时,用户能获得更多控制权。滑块是一种简单、快速且完全图形化的方法,用于动态控制模型参数。例如,在直方图中交互式修改组距和锚点,可以快速探索该密度估计器的大量替代版本,弥补单个静态直方图的不足。在某些实现中,许多模型存在参数过多的问题,需要注意一个参数的变化如何与其他参数设置冲突,以及如何解决这些冲突。在 MANET 中,等组距直方图的定义基于四个参数:偏移量、组距、组数和上限。实际上,设置这四个参数中的任意三个就能唯一确定一个直方图。当其他参数改变时,锚点和组数不会更新;更改上限会强制更新组距,更改组距会导致上限相应变化。
2.1.2 变量的包含/排除
可推广到更多维度的显示应该允许在模型描述中添加或删除变量。例如,多变量旋转图和马赛克图都提供了这样的交互式更改选项。在 MANET 中,可以通过简单的按键操作在马赛克图模型中包含或排除变量。对于不能扩展到更多维度的显示,向模型中添加变量通常会替换模型中已有的变量,如 DATA DESK 实现了这种拖放更改。
2.1.3 变量重新排序
散点图和旋转图可以交换绘图中显示的维度。在平行坐标图中,线条的交点对应于传统散点图中的直线,表明相邻变量之间存在负相关;平行线则表示正相关。由于人眼更容易检测交点,因此切换某些轴的方向,将正相关替换为负相关是有帮助的。在马赛克图中,可以通过遍历变量的所有可能排列来研究各种模型,平行坐标图也需要类似的操作。
2.1.4 类别分组
在分析过程中,可能会发现离散数据的原始分类不是最优的,将两个或更多类别合并可能更好。这对于具有大量类别的变量尤其有用,因为有些类别可能只包含少数案例,合并后可以更专注于更突出的类别。即使是类别较少的变量,也可能有理由根据其含义合并类别。
2.1.5 加权
空间参考区域数据通常基于政治定义的区域。反映特定类别中区域数量的条形图或直方图往往具有误导性且信息含量低。相反,一些人口统计数据,如总人口或总面积,可能更适合作为每个组区域的权重。在 MANET 中,条形图、直方图和马赛克图都可以进行加权,方法是将显示变量的每个案例与权重变量的相应值相乘。加权版本最适合汇总数据的显示,如直方图、条形图和马赛克图。绘制的区域不再反映每个类别的计数,而是反映落入某个类别的对象所测量的另一个变量的数量。在许多调查中,这种加权图有助于调整结果,避免因底层样本空间的特定结构而产生的错误印象。提供一种拖放选项,将标准图更改为加权图或更改图的权重,将有助于对权重进行实验。等值区域图、色区图和统计地图是在地图显示中可视化权重变量的特殊形式。
2.1.6 添加模型信息
在现有显示中添加图形元素时,通常希望添加的不仅仅是图形元素,而是模型信息。例如,创建散点图后,可以计算最小二乘回归,并将回归方程添加到散点图模型中,然后用回归直线可视化回归结果。除了回归直线,数据驱动的平滑方法也可以以同样的方式使用。为了补偿直方图对锚点选择的依赖性,建议计算平均移动直方图并将其叠加在直方图上。
2.2 改变刻度
2.2.1 重新排序刻度
排序是探索性数据分析的基本方法,通常在分析开始时进行,以提高计算的数值稳定性和操作速度。对于数值数据,排序问题只是选择升序或降序排列;其他与数字自然顺序矛盾的排序很少有信息价值,应谨慎使用。对于分类数据,没有自然的排序。常见的默认方法是使用类别的字母顺序,但这很大程度上取决于所使用的语言,不能反映类别含义所固有的顺序。当可以根据上下文对类别进行排序时,允许手动重新排列图形对象是非常有帮助的。例如,在条形图中,可以通过拖动条形并将其放置在新位置来改变类别的左右顺序,使其具有更有意义的排序。交互式重新排列条形比重命名类别更有用,因为重新命名可能只进行一次,而交互式重新排序可以轻松探索不同的顺序。当数据集变大时,手动排序可能不够。为了比较类别,通常希望根据计数对类别进行重新排序。此时,自动化排序算法很有用,用户可以交互式和图形化地构建排序标准。不同类型的图(如条形图和脊柱图)排序结果不同,以符合它们的不同用途。
2.3 逻辑缩放
普通缩放选择集合 $G$ 的子集 $A$ 并放大显示。而 Unwin 提出的逻辑缩放则更详细地显示这个子集,从而创建一个新的模型 $X_A$,甚至可能导致扩展的样本总体 $\Omega_A$。逻辑缩放对于所有汇总数据的统计显示(如条形图、直方图、马赛克图、箱线图和列联表)都很有价值,可以研究额外变量或不同模型参数对所选部分的影响。DATA DESK 提供的热点选择可以看作是逻辑缩放的一种基本形式。
3 样本总体层面的交互
3.1 选择个体
链接只有与选择结合才能显示结构。如果图中的所有观测值以相同的方式绘制,链接不会提供额外信息。通过链接,我们通过比较高亮显示点的分布与所有数据点或未高亮显示点的分布来得出结论。在动态环境中,还可以将当前选择与之前选择的心理图像进行比较。在交互式计算机环境中,允许用户直接在图中选择感兴趣的子组是很自然的。为了反映选择,点的外观通常会被高亮显示,并且在所有连接的图中会执行相同的操作。还可以对所选点执行其他操作,如屏蔽、删除或将其作为统计模型的输入。
3.2 分组
选择单个案例通常是为了在数据中找到同质子组。确定这样的子组后,希望将相应的个体定义为该组的成员。从概念上讲,处理任意分组(包括重叠和非详尽的组)没有问题,但在技术上存在困难。例如,如何存储所有个体的分组信息,当选择属于两个或更多组的个体时,如何确定选择哪个组等。一种限制性方法是禁止组重叠,每个个体只能属于一个组,如 DATA DESK 或 XGOBI 采用这种方法,优点是可以轻松添加一个组变量来指示每个个体所属的组。如果允许个体属于多个组,可能的子组数量会迅速增加。如果指定了 $k$ 个不同的组,并且允许组重叠,则需要生成几个组变量,组合这些组变量会得到总共 $2^k - 1$ 个可能的组。为了可视化用户定义的组,需要更改相应图形元素的属性,因此对于 $k$ 个不同的组,需要一个可以取 $2^k - 1$ 个不同值的属性。
4 间接对象操作
到目前为止,用户交互的讨论依赖于能够直观表示每个数据显示对象的能力。否则,根据公理,对象无法接收交互请求。这种限制使得用户交互对实现约定和想法比较敏感。实现必须确保所有可由用户操作的对象都有可视化表示,或者用户交互也可以指向不可见对象。统计分析的主要兴趣在于推断关于样本总体的陈述。虽然可以创建所有个体的列表以直接与样本总体层面进行交互,但在大多数情况下,我们使用显示这些个体观测值的可视化显示。因此,需要一种方法将交互请求从可见图形层面传播到不可见层面。对于此类操作,我们区分接收者。
下面是一个简单的 mermaid 流程图,展示了图形交互操作的主要流程:
graph LR
A[图形交互操作] --> B[图形元素调整]
A --> C[模型层面操作]
A --> D[样本总体交互]
A --> E[间接对象操作]
B --> B1[坐标轴链接与恢复]
B --> B2[改变亮度]
B --> B3[改变配色方案]
B --> B4[重新格式化类型]
B --> B5[改变纵横比]
B --> B6[数据对象排序]
C --> C1[更改模型]
C --> C2[改变刻度]
C --> C3[逻辑缩放]
D --> D1[选择个体]
D --> D2[分组]
在这个流程图中,我们可以清晰地看到图形交互操作主要分为四个大的方面,每个方面又包含多个具体的操作步骤。这种结构有助于我们更系统地理解和掌握交互式统计图形的各种操作方法。
总的来说,交互式统计图形为数据分析提供了强大的工具,通过各种交互操作,用户可以更深入地探索数据,发现数据中的潜在信息。无论是图形元素的调整、模型层面的操作,还是样本总体的交互和间接对象的操作,都在不同层面上帮助用户更好地理解和分析数据。在实际应用中,我们可以根据具体的需求和数据特点,灵活运用这些交互方法,以获得更准确和有价值的分析结果。
下面是一个表格,总结了不同操作类型及其对应的功能和适用场景:
|操作类型|功能|适用场景|
| ---- | ---- | ---- |
|图形元素调整|改变图形元素的显示属性,如亮度、配色、纵横比等|需要优化图形显示效果,提高数据可视化的可读性和信息传达能力|
|模型层面操作|更改模型参数、变量的包含/排除、重新排序等|深入探索数据关系,调整模型以更好地拟合数据或发现新的模式|
|样本总体交互|选择个体、分组等|识别数据中的子组,分析不同子组之间的差异和关系|
|间接对象操作|将交互请求从可见图形层面传播到不可见层面|处理不可见对象的交互,确保对整个样本总体的全面分析|
通过这个表格,我们可以更清晰地了解各种操作类型的特点和适用范围,以便在实际数据分析中做出更合适的选择。
希望这些信息能帮助你更好地理解和应用交互式统计图形的相关知识,如果你在实际操作中遇到任何问题,欢迎随时交流和探讨。
5 操作总结与应用建议
5.1 操作总结
为了更清晰地梳理前面介绍的各种交互式统计图形操作,我们将其按照不同的层面进行总结,如下表所示:
|操作层面|具体操作|简要说明|
| ---- | ---- | ---- |
|图形元素层面|坐标轴信息链接与恢复|链接坐标轴信息便于图形对比,特殊命令恢复原始刻度|
||改变亮度|利用亮度可视化图形元素的重叠程度,用户可控制饱和度|
||改变配色方案|通过滑块转换数据刻度,预览颜色分布优化等值区域图|
||重新格式化类型|调整图形元素使其适合框架,如直方图柱子高度的重新缩放|
||改变纵横比|根据图形形状确定纵横比,交互式工具辅助探索合适比例|
||数据对象排序|使用多种统计指标对变量进行排序,便于比较相邻变量|
|模型层面|更改模型参数|利用滑块动态控制模型参数,解决参数冲突问题|
||变量的包含/排除|在可扩展维度的显示中添加或删除变量,或替换不可扩展显示中的变量|
||变量重新排序|交换绘图维度,切换轴方向改变变量相关性,遍历变量排列研究模型|
||类别分组|合并离散数据的类别,聚焦更突出的类别|
||加权|用人口统计数据作为权重,适用于汇总数据的显示|
||添加模型信息|添加回归方程、平滑方法等模型信息到图形中|
||改变刻度|重新排序数值或分类数据的刻度,手动或自动构建排序标准|
||逻辑缩放|详细显示子集,创建新模型,适用于汇总数据的统计显示|
|样本总体层面|选择个体|用户在图中选择子组,改变点的外观并在连接图中同步操作|
||分组|定义同质子组,处理分组时存在技术难题,可采用限制重叠的方法|
|间接层面|间接对象操作|将交互请求从可见图形传播到不可见对象,确保全面分析|
5.2 应用建议
在实际应用中,我们可以根据数据分析的具体目标和数据特点,选择合适的交互操作。以下是一些应用建议的流程图:
graph LR
A[明确分析目标] --> B{数据类型}
B -->|数值数据| C[考虑改变刻度、逻辑缩放等操作]
B -->|分类数据| D[关注类别分组、重新排序刻度等操作]
C --> E{数据维度}
D --> E
E -->|低维度| F[图形元素调整、简单模型更改]
E -->|高维度| G[变量的包含/排除、重新排序等复杂操作]
F --> H[选择个体、分组进行子组分析]
G --> H
H --> I[根据结果调整操作,深入分析]
例如,如果分析目标是探索数据的分布特征,对于数值数据,可以先进行逻辑缩放,聚焦感兴趣的子集,然后通过改变刻度来更好地观察数据的分布。如果是分类数据,可以先对类别进行重新排序,使其更符合数据的内在逻辑,再进行分组分析。
如果数据维度较低,可以主要进行图形元素的调整,如改变亮度、配色方案等,以优化图形的显示效果。而对于高维度数据,则需要进行更复杂的模型操作,如变量的包含/排除、重新排序等,以发现数据中的潜在关系。
5.3 操作步骤示例
下面以直方图的重新格式化和加权操作为例,给出具体的操作步骤:
5.3.1 直方图重新格式化
- 确定当前直方图的参数,包括最高柱子的高度 $h$、最高柱子能代表的最大计数 $max(count)_0$、观测值数量 $n$ 和柱子宽度 $w_0$。
- 计算原始直方图中每个案例的面积 $a_0 = \frac{h}{max(count)_0} \cdot w_0$。
- 确定新的柱子宽度 $w_1$。
- 计算新的每个案例的面积 $a_1 = \frac{h}{max(count)_0} \cdot w_1$。
- 为保持面积不变,计算新的最大计数 $max(count)_1 = \frac{w_1}{w_0} max(count)_0$。
- 根据新的最大计数重新缩放柱子的高度,使最高柱子适合框架。
5.3.2 直方图加权操作
- 确定要显示的变量和权重变量。
- 对于显示变量的每个案例,将其值与权重变量的相应值相乘。
- 根据相乘后的结果重新绘制直方图,此时柱子的面积反映的是另一个变量的数量。
6 总结与展望
6.1 总结
交互式统计图形通过丰富的交互操作,为数据分析提供了强大的支持。从图形元素的调整到模型层面的操作,再到样本总体的交互和间接对象的操作,每个层面的操作都有其独特的功能和适用场景。通过合理运用这些操作,用户可以更深入地探索数据,发现数据中的潜在信息,提高数据分析的效率和准确性。
6.2 展望
随着数据量的不断增加和数据分析需求的日益复杂,交互式统计图形的发展前景广阔。未来,可能会出现更多智能化的交互操作,例如基于机器学习算法自动推荐合适的图形显示方式和交互操作。同时,与虚拟现实、增强现实等技术的结合也可能为交互式统计图形带来全新的体验,使用户能够更直观地感受和分析数据。
在实际应用中,我们需要不断探索和尝试新的交互方法,结合具体的数据特点和分析目标,灵活运用各种操作,以获得更有价值的分析结果。希望本文介绍的内容能够帮助读者更好地理解和应用交互式统计图形,为数据分析工作提供有益的参考。
总之,交互式统计图形是数据分析领域的重要工具,通过不断地学习和实践,我们可以充分发挥其优势,为解决各种实际问题提供有力的支持。
超级会员免费看
1016

被折叠的 条评论
为什么被折叠?



