57、交互式统计图形与条件概率可视化

交互式统计图形与条件概率可视化

在实际应用中,我们无法可视化所有可测量的集合,能看到的集合基于各种绘图尺度对样本空间Ω的划分。设B = (Bj)j∈J表示由变量Y的直方图所诱导的划分,我们实际判断的是分布PY (Bj | Ai) = PY (Bj),其中i∈I,j∈J。

1. 静态与动态绘图中的数据判断

在静态绘图中,我们固定条件事件的索引i,眼睛扫视关联的绘图,在脑海中遍历索引集J,寻找原始直方图和叠加部分之间关系的不均匀性。而在动态绘图中,当我们在活动绘图上移动画笔时,会遍历索引集I,尝试检测高亮对象分布的变化。此时,我们会同时观察划分A和B的集合,关注两个连续图形之间的差异,将当前图像与脑海中前一个图像的副本进行比较。很多情况下,这种判断更多是定性而非定量的,主要基于变化的幅度。在动态绘图中,无需绘制整个总体的图形,因为我们主要关注各种子集的选择。这种方法容易检测到的结构特征是各种图像的均匀性,人眼尤其能够区分位置变化和形状变化。

2. 分类数据的条件概率可视化

分类变量在现实世界的数据集中经常出现,但目前只有少数统计软件包能对其进行恰当处理。在很多情况下,需要将类别重新编码为整数值,以便对其应用连续数据的标准方法。虽然条形图作为单变量分类数据的基本绘图方法,早在两百年前就被Playfair使用,但近期图形工具的改进更多侧重于艺术方面,如在二维图形中引入误导性的三维元素,这些尝试既没有提高解释的便利性,也没有扩展到更高维度。

2.1 可视化分类数据的目标

可视化分类数据的重要目标是提供一个灵活的工具,满足分析过程中出现的各种需求,具体需求如下:
- 对数据有一个简单的概述,了解某些类别出现的频率。
- 分析两个或多个分类变量时,不仅关注每个单元格的频率,还想知道变量之间的关系,检查所有类别的比例是否相同,或者变量之间是否存在依赖关系。
- 在分析过程中,会检查某些模型,以找到能充分解释观测数据的可接受模型。对于分类数据,对数线性模型是一种成熟的方法,可通过查看残差来评估和改进这些模型,大的残差表明应向模型中添加哪些高阶交互项。

因此,分类数据的三个主要方面,即计数、比例和交互作用,都需要能够被成功可视化。计数(或频率)的自然视觉表示是面积,比例或分数可以可视化为子区域,一个强大的图形必须能够方便且正确地比较两个或多个子区域。变量之间的交互作用或更一般的关联是最难可视化的。

2.2 单变量绘图

有一些针对分类数据的单变量绘图,分别用于展示计数或比例,但从一个方面切换到另一个方面通常并不直接。在分析分类数据的第一步,我们想了解单变量的边际分布,例如有多少个类别、每个类别的相对大小以及是否有特别占主导地位或特别稀疏的类别。对于这类单变量问题,条形图和饼图经常被使用。

2.3 多变量列联表的可视化

可视化多变量列联表有三种不同的方法:
- 创建能够描绘多维分类数据的新特定绘图。
- 创建包含多维结构的单变量绘图的特殊排列。
- 通过关联高亮将单变量绘图组合在一起。

对于某些特定类型的多变量列联表,已经开发了图形方法,如用于2 × 2 × k表的四重显示。但这些绘图在标准软件中并不容易获得,也不太为人所知。此外,还提出了矩阵和数组布局,将单变量或双变量显示扩展到更高维度,如网格显示。通过条件化,我们将整个样本划分为子样本,并展示一系列相似的显示,以便进行比较。原则上,这种策略可以应用于任何分类数据的单变量显示。这种矩阵的质量取决于矩阵单元格之间进行良好比较的难易程度。例如,饼图矩阵只是一种节省空间的排列,没有任何多维信息,因为比较两个饼图很困难,角度不同,相应的类别可能在圆内的不同位置绘制。

当分析两个或多个分类变量时,边际分布的关注度较低,主要焦点是变量之间的关系。一个常见的问题是某个变量的比例在所有单元格中是否相同,由于比例是条件概率的粗略估计,因此经常使用条件绘图。

3. 关联高亮和条件化在绘图中的应用

选择数据的一个子集并对其进行高亮显示是交互式统计图形中使用的基本方法之一。下面以条形图为例,介绍关联高亮和条件化在分类数据绘图中的应用。

3.1 条形图中的条件概率表示

标准的条形图显示落入每个类别的案例计数,条形图中的条形通常具有相同的宽度,因此不仅通过面积,还通过条形的高度来显示计数,它展示了变量的未归一化概率密度函数。

如果我们对一个子组进行条件化(例如选择泰坦尼克号灾难中的幸存者),高亮显示的条形图会同时显示四种不同的分布:
- 条形的总高度仍然显示落入该特定类别的案例数量,即边际分布。
- 高亮区域的高度反映了变量“Class”中交叉分类的计数,即显示 |{ω: Class(ω) = ·, Surv(ω) = yes}|。将这些计数除以幸存者的总数,可以得到条件概率P(Class | Survival = yes)的估计值。由于分母对于所有类都是常数,可以忽略不计,因此计数和高亮区域分别可以作为条件分布P(Class = · | Survival = yes)的表示。
- 我们可以将所有区域(高亮部分和非高亮部分)解释为联合分布P(Class, Survival)的图形表示。当我们重新排列区域以获得交叉分类的8个类别的标准条形图时,这一点会更明显。
- 当我们只关注单个条形,并比较条形的高亮段和非高亮段时,这个比例可以看作是变量“Class”每个类别的条件概率P(Survived | Class)的估计值。通常,我们不只是想查看单个比例,而是检查所有单元格中的高亮比例是否相同。

然而,在泰坦尼克号数据集的条形图中,由于各个类别的基础频率差异较大,很难比较不同类别的生存率。但如果我们修改条形图,使每个条形具有相同的高度,并根据计数改变宽度,就可以通过查看高亮区域的高度来简单地比较比例,这种绘图称为脊柱图。

3.2 添加更多变量的情况

当我们交互式地更改模型并添加更多变量(如“Gender”)时,仍然关注生存率,但现在需要比较每个按性别交叉分类的类别的生存率。使用关联条形图或脊柱图无法处理这种情况,有时提出的在“Class”条形图和“Gender”条形图中进行两个选择的交集操作,并不能得到正确的结果。要获得所需的答案,只能通过关联脊柱图和马赛克图。

马赛克图的构建是基于条件概率的直接应用。我们首先在脊柱图中描绘单个分类变量,然后根据第二个变量在第一个变量条件下的条件概率,将脊柱图中的每个条形进行细分。因此,每个矩形的面积与观测到的单元格频率成正比,我们也可以通过条件概率的乘法规则得到这个频率:
P(A = i, B = j, C = k, D = ℓ, …) = P(A = i)P(B = j | A = i)P(C = k | B = j, A = i) × P(D = ℓ| C = k, B = j, A = i) · · ·

通过关联脊柱图并在其中进行选择,我们可以在马赛克图中获得所选类别在马赛克图定义的交叉分类条件下的条件概率。

在泰坦尼克号数据集的例子中,在马赛克图中对“Class”、“Age”和“Gender”进行交叉分类,在脊柱图中选择幸存者,就可以从马赛克图的高亮子区域中得出条件概率P(Survived = yes | Class = i, Age = j, Gender = k)。在这个显示中,重点是比较给定年龄和类别的情况下,两种性别的生存率。由于“Gender”是最后进入马赛克图构建的变量,我们可以看到在所有类和年龄组中,女性的生存率明显高于男性,但第三类女性的生存机会比第一类或第二类女性低得多。

要比较高亮子区域,应该只在对齐的组内进行。在马赛克图中,总是最后进入的变量可用于进行适当的比较,图形中条件集定义的变量起着不同的作用,它们不能互换而不改变视觉信息。一般规则是,脊柱图中显示的变量出现在条件符号前面的公式中,而我们进行条件化的变量在马赛克图中是逆序的。为了获得所有可能的交叉分类,我们需要遍历马赛克图中变量的所有可能顺序。

为了支持子区域的适当比较,重要的是在马赛克图轴的下一个可能分割方向上绘制高亮显示。如果马赛克图中有偶数个变量,高亮显示将从左到右绘制;如果有奇数个变量,高亮显示通常从下到上绘制。

4. 辛普森悖论的检测

辛普森悖论是分析列联表时的一个著名现象。我们可以使用关联条形图和马赛克图在泰坦尼克号数据中找到这种现象。首先,绘制变量“Class”的一维马赛克图,使用交互式重新分箱方法将类别数量减少到两个:船员和乘客,通过关联高亮显示可以看到乘客的生存率高于船员。然后添加变量“Gender”,重新排列变量,使“Class”成为最后进入马赛克图的变量,这样就可以比较给定性别的情况下,船员和乘客的生存率。结果发现,对于男性和女性来说,船员的生存率都高于乘客。

5. 连续数据的条件分布可视化

关联高亮显示也可用于显示连续数据的条件分布。对于分类数据,条件概率是主要关注点,但在连续数据的图形分析中,条件概率的作用没有那么重要。直方图是唯一能够对连续数据进行条件概率估计的图形显示方法,在直方图中,使用箱的高度作为参考,并将其与高亮部分的高度进行关联。为了比较比例,更方便的方法是将直方图的箱转换为相同的高度,并让箱的宽度随计数而变化,这就得到了脊柱图的连续类似物,在MANET中得到了实现。从脊柱图版本中比从原始直方图中更容易推导出条件概率。

需要记住的重要一点是,当我们想从显示中推导出条件分布时,绘图中必须表示频率,并且高亮显示必须是原始图形元素的一部分,因此只有覆盖和比例高亮显示适用于此目的。另一个结果是,当我们的目标不包括感知条件分布时,可以使用并置方法,这在大多数连续数据的探索中尤其适用。

6. 异常值检测

图形探索技术可用于多种目标,其中异常值检测通常是首要目标。这源于统计图形和探索性数据分析的早期,当时Tukey和他的追随者强调这一点以推动相关研究。

流程图:多变量分类数据可视化方法选择

graph LR
    A[分析多变量分类数据] --> B{选择可视化方法}
    B --> C[创建新特定绘图]
    B --> D[创建单变量绘图特殊排列]
    B --> E[关联高亮单变量绘图]
    C --> F[如四重显示用于特定表]
    D --> G[如网格显示]
    E --> H[关联条形图、脊柱图、马赛克图]

表格:不同绘图方法的特点

绘图方法 适用数据类型 主要用途 优点 缺点
条形图 分类数据 展示单变量计数或频率 直观展示类别计数 比较不同类别比例较困难
脊柱图 分类数据 比较不同类别条件概率 方便比较比例 难以处理多变量复杂情况
马赛克图 分类数据 展示多变量交叉分类条件概率 清晰展示多变量关系 变量顺序影响可视化结果
直方图 连续数据 估计条件概率 可进行概率估计 比较比例需转换

交互式统计图形与条件概率可视化(续)

7. 不同绘图方法在实际应用中的综合考量

在实际应用中,选择合适的绘图方法对于准确分析和理解数据至关重要。以下是对不同绘图方法在实际应用中的综合考量:

7.1 数据类型与绘图方法匹配
  • 分类数据 :对于单变量分类数据,条形图和饼图是常用的选择。条形图能直观展示每个类别的计数,而饼图则更侧重于展示各部分占总体的比例。当分析多变量分类数据时,如涉及多个分类变量之间的关系,关联高亮的条形图、脊柱图和马赛克图更为合适。例如,在分析泰坦尼克号数据时,通过关联这些图形可以清晰地看到不同类别(如舱位、性别、生存情况)之间的条件概率关系。
  • 连续数据 :直方图是估计连续数据条件概率的主要图形显示方法。但为了更方便地比较比例,可将直方图转换为脊柱图的连续类似物。
7.2 分析目标与绘图方法选择
  • 了解数据概况 :如果只是想快速了解数据的基本情况,如各类别的频率分布,单变量的条形图或饼图就足够了。
  • 分析变量关系 :当需要分析多个变量之间的关系,特别是条件概率关系时,需要使用关联的图形,如关联条形图、脊柱图和马赛克图。例如,在分析泰坦尼克号数据中不同舱位、性别和生存情况之间的关系时,马赛克图能清晰展示各变量之间的交叉分类条件概率。
  • 检测异常值 :图形探索技术可用于检测异常值,不同的绘图方法在这方面的效果不同。例如,箱线图可以直观地显示数据的四分位数和异常值,但在本文中未详细提及,不过在实际应用中也是常用的异常值检测工具。
8. 可视化方法的操作步骤总结

为了更好地应用上述可视化方法,下面总结了一些操作步骤:

8.1 绘制条形图和脊柱图
  1. 准备分类数据,确定要展示的变量。
  2. 绘制标准条形图,以展示每个类别的计数。
  3. 如果需要比较不同类别之间的比例,将条形图转换为脊柱图,即让每个条形具有相同的高度,并根据计数改变宽度。
  4. 可以通过关联高亮显示子组,以展示条件概率。例如,在泰坦尼克号数据中选择幸存者,高亮显示的条形图或脊柱图可以展示不同舱位的条件概率。
8.2 构建马赛克图
  1. 选择要分析的多个分类变量。
  2. 首先在脊柱图中描绘单个分类变量。
  3. 根据第二个变量在第一个变量条件下的条件概率,将脊柱图中的每个条形进行细分。
  4. 继续添加其他变量,重复步骤3,直到所有变量都包含在马赛克图中。
  5. 通过关联脊柱图并在其中进行选择,在马赛克图中获得所选类别在交叉分类条件下的条件概率。
  6. 注意变量的顺序,最后进入马赛克图的变量可用于进行适当的比较。为了获得所有可能的交叉分类,需要遍历变量的所有可能顺序。
8.3 检测辛普森悖论
  1. 绘制相关变量的一维马赛克图,如变量“Class”的一维马赛克图。
  2. 使用交互式重新分箱方法对数据进行处理,如将类别数量减少到合适的数量。
  3. 通过关联高亮显示初步观察不同类别之间的关系,如乘客和船员的生存率比较。
  4. 添加其他变量,如“Gender”,重新排列变量顺序,使某个变量成为最后进入马赛克图的变量。
  5. 再次比较不同类别在给定性别等条件下的关系,观察是否出现辛普森悖论。
9. 可视化效果的优化建议

为了提高可视化效果,以下是一些优化建议:

9.1 颜色和标记的使用
  • 合理使用颜色可以增强图形的视觉效果,帮助区分不同的类别或组。例如,在马赛克图中,可以使用不同的颜色表示不同的变量或类别,使图形更加清晰易懂。
  • 使用标记(如点、线等)可以突出显示某些重要的数据点或趋势。例如,在条形图中,可以使用标记表示异常值或特殊情况。
9.2 图形布局和排版
  • 合理的图形布局和排版可以使多个图形之间的关系更加清晰。例如,在展示关联图形时,可以将相关的图形放在相邻的位置,方便比较和观察。
  • 调整图形的大小和比例,使图形在页面上的显示效果更加协调。
9.3 交互功能的添加
  • 交互式统计图形具有很大的优势,可以通过添加交互功能,如鼠标悬停显示详细信息、点击切换不同的显示模式等,增强用户与图形的互动性,提高数据探索的效率。

流程图:可视化方法操作流程

graph LR
    A[准备数据] --> B{数据类型}
    B --> C[分类数据]
    B --> D[连续数据]
    C --> E[选择绘图方法]
    E --> F[条形图/脊柱图]
    E --> G[马赛克图]
    F --> H[绘制图形]
    H --> I[关联高亮]
    G --> J[构建图形]
    J --> K[关联脊柱图选择]
    D --> L[直方图]
    L --> M[转换为脊柱图类似物]
    M --> N[关联高亮]

表格:可视化效果优化建议总结

优化方面 具体建议
颜色和标记 合理使用颜色区分类别,使用标记突出重要数据点
图形布局和排版 合理布局图形,调整大小和比例
交互功能 添加鼠标悬停、点击切换等交互功能

通过以上对交互式统计图形和条件概率可视化的介绍,我们了解了不同绘图方法的特点、应用场景和操作步骤,以及如何优化可视化效果。在实际应用中,应根据数据类型和分析目标选择合适的绘图方法,并结合优化建议提高可视化的质量,从而更好地理解和分析数据。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值