56、交互式统计图形:关联视图范式

交互式统计图形:关联视图范式

1. 关联视图的基础机制

在交互式统计图形中,存在仅关联部分尺度而非全部尺度信息的机制。例如,可将直方图起始点和组距的变化传播到其他所有直方图。由于不同变量的测量尺度完全不同,组距和锚点不应作为绝对量关联,而应从相对意义上关联,以实现按比例变化。假设活动图中的组距为 $h_1$,用户将其改为 $h_1 - a$,那么关联直方图的组距可从 $h_2$ 变为 $\frac{h_1 - a}{h_1}h_2$。现代计算机系统有足够能力即时更新图形。

2. 样本总体关联

2.1 身份关联

样本总体关联是关联范式的起源。在多元统计中,可视化同一个体或案例的观测值之间的联系是很自然的。样本总体关联中最简单的情况是通过观测进行的经验关联,即两个图形基于相同的样本总体 $\Omega$,并使用恒等映射 $id : \Omega \to \Omega$ 作为两个集合之间的关系,这是一对一关联的特殊情况。

典型的身份关联情况如下:对一组个体 $\Omega$ 测量了多个变量,并在计算机屏幕上以二维图形表示其中一个或多个测量值。用户在屏幕上绘制一个区域 $R$,根据当前的绘图类型,图形显示 $D_1$ 中相应部分 $G_R \subset G_1$ 会被高亮显示。这些部分对应于个体子集 $A = X^{-1}(G^{-1}(G_R)) \subset \Omega$。这个选定的个体子集在所有图中保持不变,并且相应的子集模型 $Y(A)$ 必须在关联图中显示。如果结果图像 $Y(A)$ 符合显示 $D_2$ 中的内部关联结构,即模型 $Y(A)$ 可以无信息损失地映射到图形元素 $G_2$,那么可视化就很直接。这在多元数据中是常见的,例如散点图中每个点都是独立且不重叠的。

身份关联并不一定局限于相同的样本总体。只要两个变量长度相同,它们就可以组合在一个数据矩阵中,所有软件程序都会将这些变量视为在相同个体上观测得到的。但在解释这种人为关联的变量时需要谨慎。身份关联使得单向、双向或多向关联的区分变得多余,因为它不会修改信息,返回的信息与发送的信息相同,因此不会产生冲突。身份关联是基于相同样本总体的显示的自然选择,统计中的标准情况,即数据集由 $n × k$ 数据矩阵组成时,会使用这种关联方式。但复杂数据集由多个数据矩阵组成,因此需要其他关联关系。

2.2 层次关联

实际中要分析的数据库是来自不同来源、与不同样本总体相关的数据矩阵的组合。通常样本总体之间存在一定的层次关系,即一个样本总体在层次上高于另一个。这种情况在地理研究中很常见,例如一个样本总体是更精细的地理网格,另一个是较粗的网格,如国家的行政区域划分。

这是一对多关联的特殊情况。在层次关联方案中,选择较高层次的一个对象会自动选择较低层次的所有相关对象。例如,在图中选择德国,会同时选择德国的所有联邦州、地区和郡县。层次关联关系也可以从较细层次到较粗层次使用,形成多对一关联方案,但可能会出现可视化问题。

2.3 距离和邻域关联

对于空间数据,距离或邻域信息是建立关联关系的自然选择。大多数情况下,距离是欧几里得距离。在空间数据分析中,使用了多种邻域定义,每种定义都会导致略有不同的关联关系。这些关联关系可以基于一个样本总体内的距离和邻域,也可以在两个样本总体之间建立,只要能定义两个样本总体元素之间的邻域或距离。这些都是一对多关联的特殊情况。

可以通过单独计算距离或计算到选定子集质心的距离来建立不同的关联关系。逆距离加权(即点离参考位置越近,权重越高)会导致多值选择。关联方案也可以包括一个位置的所有邻域(一阶邻域或特定阶数的邻域),考虑不同阶数的邻域会导致多值选择。

以下是样本总体关联类型的总结表格:
| 关联类型 | 特点 | 示例 |
| ---- | ---- | ---- |
| 身份关联 | 基于相同样本总体,使用恒等映射,一对一关联特殊情况 | 多元数据散点图 |
| 层次关联 | 样本总体有层次关系,一对多或多对一关联 | 国家行政区域划分 |
| 距离和邻域关联 | 基于空间数据的距离或邻域信息,一对多关联 | 空间数据分析 |

3. 关联高亮显示的可视化

3.1 属性高亮显示

只有图形中的图形元素可以通过图形选择直接选中。这种选择通常在活动图中通过将选中的图形元素用系统的高亮颜色着色来可视化,这意味着图形元素的颜色属性必须改变。关联高亮显示的可视化意味着高亮属性必须由不同显示中的多个图形元素共享。图形元素属性的关联可以通过以下路径之一传递:
(1) $G_1 \to X_1 \to \Omega_1 \to \Omega_2 \to X_2 \to G_2$
(2) $G_1 \to X_1 \to X_2 \to G_2$
(3) $G_1 \to G_2$

当从 $G_1$ 到 $G_2$ 的复合映射是一个函数时,可视化在技术上很直接。此时,可以通过为所有关联的图形元素设置相同的属性来进行属性可视化。如果使用路径 (1),属性关联需要两个显示中都有一对一的内部关联结构和一对一的外部样本总体关联结构,但这种情况不太可能出现,因为排除了双射的内部关联结构。即使外部关联是一对一的,内部关联结构也不一定是。通过路径 (2) 进行属性关联需要两个模型的理想可视化和一对一的外部模型关联。路径 (3) 需要一对一的图形关联。

3.2 叠加显示

轴选择不基于图形元素,因此不能使用其属性。在箱线图中,轴选择是推荐的标准选择方法。DATA DESK 使用属性高亮显示,并将箱线图中的高亮显示限制在异常值上。为了可视化轴选择,可以使用叠加显示而不是属性高亮显示。这意味着为选定的子组创建一个额外的图,并将其放置在当前图的顶部。虽然可以为选定的子组更改图形类型,但应该遵循用相同类型的图形表示选定子组的原则,例如在箱线图中高亮显示部分也用箱线图表示。但叠加图会覆盖原始图的一部分,对于某些图来说,这会使比较变得困难。MANET 以非标准方式绘制未高亮显示的箱线图,以使用于选定子组的标准箱线图更清晰可见。叠加显示在活动图和所有关联图中都适用,无论使用何种关联方案。

3.3 比例高亮显示

当完整的关联方案不是一对一关联时,关联显示中的高亮显示不能通过属性高亮显示来实现。叠加显示可以使用,但在某些情况下,比例高亮显示更合适。比例高亮显示可以可视化多对一关联方案。假设 $m$ 个对象中只有 $k$ 个被选中,如果所有 $m$ 个对象都被选中,那么关联会导致对应的一个对象也被选中。那么如何表示这个对象只有 $k/m$ 被选中的事实呢?这里可以使用比例高亮显示来指示选择的数量。比例高亮显示的结果与叠加显示类似,在很多情况下可以以叠加显示的形式实现。比例高亮显示特别适用于显示面积的图形。其实现方式如下:每个图形元素代表一定数量的案例。进行选择时,为每个图形元素计算选中案例的相应比例,并对总面积的相应比例进行着色。这种方法在图形元素沿基线排列的显示中效果最好,如条形图或直方图。对于直方图、条形图和马赛克图,叠加显示和比例高亮显示的结果相同,在不深入了解所用软件的情况下,无法确定实现的是哪种关联方式。比例高亮显示与条件概率密切相关。

除了对面积比例进行着色,还可以使用不同的强度来表示选定的比例,这适用于图形元素布局非矩形的显示。例如,在巴伐利亚地图中,左图显示 96 个县,右图显示 7 个地区。左图中选择了一些县,关联到右图中相应地区会被高亮显示,高亮颜色的强度反映了每个地区中被选中的县的数量。

3.4 并置显示

另一种标准软件工具中尚未提供的替代方法是并置显示。这意味着将选定子组的图不直接放在原始图上,而是放在其旁边,这样可以避免掩盖原始图的重要特征,并且仍然便于比较两种表示。但对于某些图,如条形图,叠加图必须放在原始图内部,以便为条件概率的正确判断提供参考。并置显示在静态图中很常见,但在交互式图形中尚未得到广泛接受。当前的计算机能力使得交互式创建并置图成为可能,但仍然存在分散注意力的问题。不过,对于比较子组,并列图能更清晰地显示信息。并置显示的原则可以直接从图形显示扩展到统计模型显示。计算整个样本的统计模型后,可能对特定子集感兴趣。交互式指定样本总体的子集后,只需要为选定的子组运行模型,新结果可以与原始结果并列,以便于模型比较。

关联高亮显示可视化方法总结如下表:
| 可视化方法 | 特点 | 适用场景 |
| ---- | ---- | ---- |
| 属性高亮显示 | 通过改变图形元素颜色属性实现关联高亮 | 一对一关联且内部关联结构合适时 |
| 叠加显示 | 创建额外图放置在当前图顶部 | 轴选择可视化,适用于多种关联方案 |
| 比例高亮显示 | 按比例着色或改变强度表示选择数量 | 多对一关联,显示面积的图形 |
| 并置显示 | 将选定子组图放在原始图旁边 | 避免掩盖原始图特征,便于比较 |

以下是关联高亮显示可视化流程的 mermaid 流程图:

graph LR
    A[选择图形元素] --> B{关联方案是否一对一}
    B -- 是 --> C[属性高亮显示]
    B -- 否 --> D{是否轴选择}
    D -- 是 --> E[叠加显示]
    D -- 否 --> F{是否适合比例显示}
    F -- 是 --> G[比例高亮显示]
    F -- 否 --> H[并置显示]

4. 分组可视化

在实际数据集中,传统统计假设数据是同质的往往不成立。数据探索通常会发现有趣的数据簇,需要进一步研究。在分析中,为了区分两组或多组数据,通常会对相应的图形元素进行着色以反映其所属组。

处理颜色和组有不同的方法。例如,在 XGOBI 或 DATA DESK 中,每个组用一种颜色表示,每个数据点只能属于一个组。而在 MANET 中,概念更宽松,一个数据点可以属于不同的组。这意味着如果有 $k$ 个不同的组,可能需要处理另外 $2^k - 1$ 个组,这些组代表初始 $k$ 个组之间的所有可能交集。为了简化,通常只处理两个组及其交集,但这会带来一些问题,例如点图中的重叠问题很难解决。对于基于区间的表示,没有唯一或最优的解决方案,也难以推广到两个以上不同的组,例如:
- 堆叠颜色条形图的优点是彩色观测值的总和与高亮数字或总数比较容易,但组间比较不容易。
- 叠加条形图则相反,组间比较容易,但涉及彩色观测值总和的比较又变得困难。

5. 关联查询

在许多系统中,对图的查询仅限于简单显示案例编号或名称。在 MANET 中,所有图类都可以进行查询,以显示边界、类名或类编号,或者显示当前所有选定变量的相关内容。关联查询可能意味着显示当前所有显示变量的值,或者在一个图中查询会导致在所有其他图中显示相应信息。但由于人类视觉系统不擅长同时跟踪多个图,因此可能更倾向于将这些信息打包显示。MANET 实现了一种特殊形式的关联查询,当按下 Shift 键进行查询时,不仅会显示当前显示变量中选定个体的信息,还会显示变量窗口中当前高亮显示的所有变量的信息。这样,选择信息就从变量窗口关联到了所有其他显示。

6. 轨迹图中的双向关联

轨迹图是广义刷选的一种形式,其使用的关联方案是一对多和多对一关联的组合。当在地图中选择一个区域时,轨迹图中依赖于该选定区域观测值的所有点都会被高亮显示。当在轨迹图中选择一个点时,所有对该值有贡献的区域都会被高亮显示。这种高亮显示操作会返回到轨迹图,依赖于当前高亮显示区域的所有点都会被高亮显示。

对于轨迹图中的双向关联是否有用存在争议。一种观点认为,在轨迹图中选择点时,用户知道选择的是哪个点,系统改变用户的选择规范会产生误导。另一种观点认为,用户知道选择的点,系统可以提供额外信息,即当前选定的区域也对所有其他高亮显示的点有贡献。更倾向于后一种观点,并且需要注意的是,在轨迹图中双向关联可以无冲突地实现,因为轨迹图通过沿水平轴显示的点来表示计算量,不会出现重叠问题。

7. 使用关联低维视图进行多元图形数据分析

从历史上看,图形方法一直被视为探索性数据分析 (EDA) 的一部分。虽然这种关系仍然成立,但越来越多的领域中,图形的使用与验证性分析更密切相关。图形数据分析不能替代验证性分析,但在许多情况下,它可以帮助使验证性研究更容易理解和更可靠。

使用图形检测异常值和不寻常观测值的做法似乎被过度强调了。并非所有数据集都有异常值,而且这些远不是图形可以帮助检测的唯一模式。在本章中,我们关注多元依赖关系,并假设熟悉使用图形进行单变量探索性分析。在多元探索性数据分析中,任务是识别变量之间的关系,从统计角度来说,就是寻求条件分布 $F(Y | X)$ 的信息。实现这一目标的关键是对变量数量进行充分的降维。有一些分析方法,如主成分分析,和图形方法,如高维投影,可用于降维。一旦在数据中检测到结构,用户就希望理解它。虽然检测结构可能需要复杂的技术,但使用简单的低维视图来解释结构通常更方便。从投影到二维空间的高维数据中提取易于理解的陈述通常是困难的。因此,用原始变量进行描述是有用的。关联单个数量的单变量视图可以增强这一解释步骤。

关联视图的基本主题是一致地显示每个案例。当分析师在一个视图中遇到表现异常的观测值时,很自然地会想知道这些案例在其他所有图中的表现。在许多情况下,基于关联假设的预期会得到满足,并且可以提取数据的同质子集。有时结果会与预期矛盾,这就需要寻找这种意外行为的解释。

关联视图不仅用于结合其他变量查看在一个图中发现的一维结构。通过系统地对样本点进行子集划分,我们试图检测二维或更多维的结构。与仅使用单个图形可视化依赖结构相比,这种方法的优点是,单个二维或三维图只有在结构分别是二维或三维时才能显示整个结构。能够做到这一点的图形被 Cook 和 Weisberg (1994) 称为“理想总结图”。

Stuetzle (1991) 根据两种技术所需的不同视觉判断,区分了两种用于寻找关联的关联刷选方式:静态刷选和动态刷选。Stuetzle (1991) 以抽象的方式描述了散点图的刷选。这里将其描述扩展到不单独显示每个观测值的图。假设我们有一组独立同分布的一维随机变量对 $(X, Y)$ 的观测值,记录在个体集合 $\Omega$ 中。假设每个变量的分布用直方图表示,且 $X$ 的直方图是活动图。交互式图形中可用的标准选择技术只允许选择总体 $\Omega$ 的子集,这些子集的 $X$ 观测值落在由区间确定的类的并集中。设 $A = (A_i) {i \in I}$,$I$ 是有限索引集,表示由 $X$ 直方图的区间大小选择所诱导的集合 $\Omega$ 的划分。进一步假设我们在活动图中选择了一组区间,这意味着我们选择了随机变量 $X$ 的图像 $X$ 的子集 $X_A$,或者等价地,选择了基础样本总体 $\Omega$ 的子集 $A = \bigcup {j = 1}^{a} A_i$,${1, \ldots, a} \in I$。然后在所有关联图中叠加选定子集 $A$ 的直方图,即在 $Y$ 的直方图上绘制 $Y_A = {y(\omega): \omega \in A}$ 的直方图。如果 $X$ 和 $Y$ 独立,则条件分布 $P_{Y | X \in A}$ 与 $Y$ 的无条件分布相同。因此,对于任何可测集 $A \subset \Omega$ 和 $B \subset Y$,我们有以下独立性性质:$P(Y \in B | X \in X_A) = P(Y \in B)$。

多元图形数据分析流程总结如下表:
| 步骤 | 操作 |
| ---- | ---- |
| 1 | 进行数据降维(分析方法或图形方法) |
| 2 | 检测数据结构 |
| 3 | 使用关联低维视图解释结构 |
| 4 | 系统子集划分样本点,检测多维结构 |
| 5 | 验证关联假设,提取同质子集或寻找异常解释 |

以下是多元图形数据分析流程的 mermaid 流程图:

graph LR
    A[数据降维] --> B[检测结构]
    B --> C[关联低维视图解释]
    C --> D[子集划分样本点]
    D --> E{是否符合关联假设}
    E -- 是 --> F[提取同质子集]
    E -- 否 --> G[寻找异常解释]

综上所述,关联视图在交互式统计图形中具有重要作用,通过不同的关联方式和可视化方法,可以帮助我们更好地理解多元数据中的关系和结构。在实际应用中,需要根据数据的特点和分析的目的选择合适的关联和可视化方法,以充分发挥图形数据分析的优势。

8. 关联方式与可视化方法的综合应用

在实际的数据分析场景中,不同的关联方式和可视化方法需要根据数据的特性和分析目标进行综合应用。例如,对于基于相同样本总体的多元数据,身份关联是首选,结合属性高亮显示可以直观地展示数据之间的关系。若数据存在层次结构,如地理区域数据,层次关联能清晰呈现不同层次之间的联系,此时可根据具体情况选择叠加显示或比例高亮显示来进行可视化。

以下为不同数据类型和分析目标下关联方式与可视化方法的推荐组合:
| 数据类型 | 分析目标 | 关联方式 | 可视化方法 |
| ---- | ---- | ---- | ---- |
| 多元数据(相同样本总体) | 展示变量间关系 | 身份关联 | 属性高亮显示 |
| 地理区域数据 | 呈现层次结构 | 层次关联 | 叠加显示、比例高亮显示 |
| 空间数据 | 分析邻域关系 | 距离和邻域关联 | 比例高亮显示 |
| 复杂数据集(多数据矩阵) | 探索数据结构 | 多种关联结合 | 并置显示、比例高亮显示 |

8.1 多元数据案例分析

假设我们有一个包含多个变量的医学数据集,记录了患者的年龄、血压、血糖等信息。我们希望通过交互式统计图形来探索这些变量之间的关系。首先,我们将所有变量组合在一个数据矩阵中,采用身份关联方式。当用户在散点图中选择一个区域时,关联的其他散点图和直方图会通过属性高亮显示相应的数据点。例如,在年龄 - 血压散点图中选择年龄在 50 - 60 岁的区域,其他图中对应年龄范围的患者数据点会被高亮显示,方便用户观察这些患者的血糖等其他指标的分布情况。

8.2 地理区域数据案例分析

以某国家的行政区域数据为例,我们要分析不同地区的经济发展水平。使用层次关联,当选择一个省级行政区时,该省的所有市级行政区会自动被选中。为了可视化各地区的经济指标,我们可以使用叠加显示,在原始的地图上叠加各地区的经济指标柱状图。或者使用比例高亮显示,根据各地区的经济发展水平对地图上的区域进行颜色强度的调整,直观展示不同地区的差异。

9. 关联查询与交互性增强

关联查询在交互式统计图形中扮演着重要角色,它能够为用户提供更丰富的信息。在 MANET 中实现的特殊关联查询方式,通过按下 Shift 键可以将变量窗口中的选择信息关联到所有其他显示,大大增强了交互性。

9.1 关联查询的操作流程

  1. 打开包含多个图形显示和变量窗口的界面。
  2. 在变量窗口中高亮显示感兴趣的变量。
  3. 在任意一个图形显示中选择一个个体或区域。
  4. 按下 Shift 键同时进行查询操作。
  5. 系统将显示该个体在当前显示变量以及变量窗口中高亮显示变量的相关信息。

9.2 关联查询的优势

这种关联查询方式使得用户能够在一个操作中获取更全面的信息,避免了在多个图形和窗口之间频繁切换。例如,在一个包含多个变量的数据集分析中,用户可以在查看某个样本的部分变量信息时,通过关联查询快速了解该样本在其他感兴趣变量上的值,有助于更深入地分析数据。

关联查询操作流程如下 mermaid 流程图所示:

graph LR
    A[打开界面] --> B[高亮变量窗口变量]
    B --> C[选择图形显示个体/区域]
    C --> D[按下 Shift 键查询]
    D --> E[显示全面信息]

10. 双向关联在不同场景中的应用

双向关联在轨迹图中有着独特的应用,但它的适用性在不同场景中有所不同。除了轨迹图,双向关联在其他类型的图形中也可以发挥作用。

10.1 双向关联在散点图中的应用

在散点图中,双向关联可以实现更深入的数据分析。例如,当用户在一个散点图中选择一个数据点时,关联的另一个散点图中与该数据点相关的所有数据点会被高亮显示。同时,这种高亮显示信息会反馈回原散点图,进一步突出相关的数据点。这样,用户可以更清晰地观察两个变量之间的关系以及数据点之间的相互影响。

10.2 双向关联的注意事项

虽然双向关联可以提供更多的信息,但在某些情况下可能会导致信息过载。因此,在使用双向关联时,需要根据具体的分析需求和用户的承受能力进行合理设置。例如,在数据量较大的情况下,可以限制双向关联的范围,只显示与当前选择最相关的数据点。

以下为双向关联在不同图形中的应用总结:
| 图形类型 | 双向关联应用 | 注意事项 |
| ---- | ---- | ---- |
| 轨迹图 | 选择区域或点时相互高亮显示 | 避免误导用户,合理设置关联范围 |
| 散点图 | 选择数据点时关联图相互高亮 | 防止信息过载,限制关联范围 |

11. 关联视图在未来数据分析中的发展趋势

随着数据量的不断增长和数据分析需求的日益复杂,关联视图在未来的数据分析中将会发挥更加重要的作用。

11.1 与人工智能技术的结合

未来,关联视图可能会与人工智能技术,如机器学习和深度学习相结合。通过机器学习算法自动识别数据中的关联模式,并根据这些模式动态调整关联方式和可视化方法。例如,对于复杂的高维数据,机器学习算法可以自动发现变量之间的潜在关系,然后选择最合适的关联方式和可视化方法进行展示,提高数据分析的效率和准确性。

11.2 增强的交互性和用户体验

交互式统计图形的交互性将进一步增强,用户可以更加自由地控制关联方式和可视化效果。例如,用户可以通过手势、语音等方式进行操作,实现更加自然的交互体验。同时,系统可以根据用户的操作习惯和分析历史,提供个性化的关联和可视化建议,提高用户的工作效率。

11.3 跨平台和多设备支持

随着移动设备的普及,关联视图需要支持跨平台和多设备访问。用户可以在电脑、平板和手机等不同设备上随时随地进行数据分析,并且能够保持数据的一致性和交互的连贯性。例如,用户在电脑上进行了一部分数据分析,然后可以在手机上继续进行,并且所有的关联设置和可视化效果都能同步显示。

关联视图未来发展趋势的 mermaid 流程图如下:

graph LR
    A[关联视图] --> B[与人工智能结合]
    A --> C[增强交互性和用户体验]
    A --> D[跨平台和多设备支持]
    B --> E[自动识别关联模式]
    C --> F[个性化建议]
    D --> G[数据同步和连贯交互]

12. 总结

关联视图作为交互式统计图形的核心范式,为数据分析提供了强大的工具。通过不同的关联方式,如身份关联、层次关联、距离和邻域关联等,可以处理各种类型的数据,揭示数据之间的内在关系。同时,多样化的可视化方法,如属性高亮显示、叠加显示、比例高亮显示和并置显示等,能够将这些关系直观地呈现给用户。

在实际应用中,需要根据数据的特点和分析目标选择合适的关联方式和可视化方法,并结合关联查询和双向关联等功能,提高数据分析的效率和准确性。未来,关联视图将与人工智能等技术深度融合,提供更加智能、交互性更强的数据分析体验,为各领域的决策提供有力支持。

在进行数据分析时,我们应充分发挥关联视图的优势,不断探索新的应用场景和方法,以更好地应对日益复杂的数据挑战。同时,要关注关联视图的发展趋势,及时引入新的技术和理念,提升数据分析的水平和质量。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值