15、可视化数据分析与信息可视化全解析

可视化数据分析与信息可视化全解析

1. 从地图查询看可视化思维

想象一下,你正对着一张地图,试图找到从Skövde到Stockholm的路线。你的目光会迅速被地图上显著的元素吸引,比如较大的圆点(代表城市)和线条(代表道路)。同时,你会在脑海中形成一系列可视化查询,例如“最粗的线条在哪里?”(这可能代表主要高速公路)以及“‘Stockholm’这个文本图案在哪里?”(这是你的目的地)。

这些查询就像给你的视觉系统设定了目标,让它专注于寻找特定的图案。如果找到了匹配的图案,就意味着你向解决方案迈进了一步,接着会形成新的查询;如果没找到,你就会移动眼睛(甚至头部)去查看地图的其他部分。最终,所有查询都得到解答,你也就找到了从Skövde到Stockholm的路线。

2. 视觉系统的奥秘
  • 眼睛的构造与功能
    • 眼睛大约由1.25亿个感光细胞组成,分为视杆细胞和视锥细胞。视杆细胞对亮度和运动更敏感,但对颜色不敏感,它们数量众多,尤其集中在视网膜的周边,空间分辨率较低但响应时间短。视锥细胞对光的敏感度较低,但能感知颜色,空间分辨率较高,仅占总感光细胞的约5%,且只存在于眼睛的正中央——中央凹。
    • 这就导致我们要想清晰地感知物体的颜色,物体必须处于视野中心;而要感知与背景对比度低的闪烁或移动的物体,它们应靠近视野边缘。
  • 数据压缩与处理
    • 眼睛捕捉到的光和颜色数据,与大脑皮层处理这些数据的区域大小并非直接对应。大约1.25亿个感光细胞的信号会被压缩映射到约100万根视神经纤维上。中央凹区域的压缩程度较低(约每根纤维对应5个细胞),而视网膜周边的压缩程度很高(数千个细胞对应一根纤维)。
    • 这意味着大脑超过50%的处理能力用于处理不到5%的视觉数据。结果是,在一臂之遥的距离,我们只能在拇指指甲大小的区域内看清物体,但在该区域的正中心,我们能感知到针头上的100个小点;而在周边视野的边缘,我们只能感知到一臂之遥处拳头大小的物体。
  • 眼球运动与视觉通路
    • 视觉思维是一系列可视化查询的过程,这意味着我们的眼睛不会固定地看周围环境,而是不断移动,寻找感兴趣的区域和细节。眼睛从一个位置跳到另一个位置的过程称为扫视,扫视速度极快,角速度可达900°/秒。
    • 扫视通常需要约200毫秒启动,执行时间约为20 - 200毫秒,具体取决于幅度。有趣的是,通过预先设定视觉系统,可以大大缩短启动时间。在扫视过程中,我们会经历所谓的扫视掩蔽,实际上处于失明状态(即会导致视觉模糊或出现间隙的效果会被抑制)。
    • 视神经的信号最终到达大脑后部的初级视觉皮层(也称为视觉区域1,V1),信息从这里进一步传递到后续的视觉区域V2 - V6。V1和V2主要负责检测视觉空间的基本特征,如大小、边缘、颜色、运动、方向、形状和深度。随着视觉区域层级的升高,会形成更复杂的视觉表征或图案。
    • 视觉处理有两条主要通路,具体使用哪条取决于视觉查询的类型:与形状识别、物体表征和长期记忆相关的“是什么”查询,遵循腹侧通路;与物体位置和运动相关,或在回答查询时需要控制身体(尤其是眼睛和头部运动)的“在哪里”和“如何”查询,遵循背侧通路。
3. 可视化搜索过程

可视化处理实际上包含两个并行的过程:
- 自下而上的过程 :视网膜上的光模式形式的视觉信息驱动从基本特征开始构建图案。
- 自上而下的过程 :当前的可视化查询以及它们对感兴趣的物体和图案的关注需求,会强化感知行为(如眼球运动),并在自下而上的处理链中预先设定(调整)信号。

从概念层面来看,可视化搜索过程可以用三个嵌套循环来描述:
| 循环名称 | 具体操作 |
| ---- | ---- |
| 图案测试 | 在最内层循环中,将当前注视区域(扫视之间的时间段)的信息与感兴趣的图案进行测试,速度约为每秒20个图案。由于一次注视通常持续约0.2秒,这意味着每次迭代大约测试4个图案。 |
| 图案搜索 | 如果在当前注视区域未找到感兴趣的图案,第二个循环会启动。它会引导自下而上的过程关注相关特征,通过记住已访问的注视点来强化眼球运动,避免重复测试。最后,在该区域内识别一个新的附近注视候选点,并移动眼睛获取它。 |
| 识别候选点 | 如果第二个循环未能找到注视候选点,就需要扩大对与当前可视化查询相关的视觉元素(图案、物体等)的搜索。最外层循环会利用任务和领域知识以及类似可视化查询的经验,引导自上而下过程关注相关图案和物体。它还会强化感知环境中新的、更周边部分所需的动作,以识别候选区域。最后,通过移动眼睛、头部甚至身体来获取新的注视区域。 |

4. 注意力通道

在可视化搜索过程中,持续调整视觉信号以增强对感兴趣的物体和图案的注意力至关重要。研究表明,以下预注意特征在V1和V2区域是可调节的,可用于强化后续的眼球运动以及图案的搜索和测试:
- 颜色(色调和亮度)
- 基本形状(大小、伸长、曲率、清晰度/模糊度)
- 方向(方向、角度、对齐/不对齐)
- 运动(运动方向和相位、闪烁)
- 空间分组(接近度、连接线、封闭轮廓或颜色区域)
- 深度(阴影、凸/凹)

物体或图案的突出程度(即产生的跳出效应)并不取决于它所具有的干扰特征数量,而是与其他物体或图案的相对对比度。相对对比度必须高于某个阈值才能产生跳出效应,而且这种效应通常是非对称的。例如,形状尺寸的增加比同等程度的减小更能使物体从其他物体中突出。

这些特征在V1和V2区域是“硬编码”的,一方面我们的注意力会自动且无意识地被这些特征突出的图案和物体吸引;另一方面,这些特征在V1和V2中是分开处理的,形成了独立的注意力通道。在任何时刻,V1和V2都可以被调整到某个预注意特征,例如通过激活基本形状通道可以轻松在圆形和方形的集合中找到所有方形,通过激活颜色通道可以找到所有绿色物体。

然而,虽然有些特征组合是可调节的,但大多数组合并非预注意特征(不会产生跳出效应)。这就解释了为什么在红色或绿色的圆形和方形集合中找到所有绿色方形要困难得多,因为这需要同时激活两个不同的注意力通道,而形状和颜色的组合不是预注意特征。

通过使用不同通道的视觉特征对物体和图案进行编码,我们可以同时关注多个物体和图案。例如,一种物体可以用颜色编码,另一种用形状编码,第三种用运动编码等。每个通道内还有不同的变体,如一种物体可以用色调编码,另一种用亮度编码等。但经验表明,在单个可视化或图形表示中,有效使用的通道特征最好不超过8 - 10个。

5. 颜色感知

视锥细胞能感知颜色,不同的视锥细胞对不同波长的光敏感,分别对应红色(长波长)、绿色(中波长)和蓝色(短波长)。视锥细胞(和视杆细胞)的信息在V1区域处理,经过多次加减运算后形成三个颜色对立通道:红 - 绿、蓝 - 黄和黑 - 白(最后一个通道是无色的,仅检测亮度)。

在一个通道上有强烈信号,而在另外两个通道上信号为中性时,就会产生六种心理原色:黑色、白色、红色、绿色、黄色和蓝色。语言学研究表明,不同文化对这些颜色是“真正的”原色似乎有共识,并且这些颜色之间没有顺序之分。

与其他两个通道相比,黑 - 白通道在编码详细视觉信息方面的能力要强得多(分辨率更高),尤其在空间信息、运动和深度方面。因此,高密度的可视化或图形表示应使用灰度来编码物体和图案,而不是其他配色方案。

需要注意的是,颜色的感知具有上下文敏感性,会受到附近颜色、亮度差异、阴影和纹理的影响。这意味着根据颜色对立通道模型具有相同颜色的两个物体,由于所处的上下文不同,可能会被感知为非常不同的颜色。

6. 信息可视化的魅力

可视化表示有助于人们理解抽象数据。例如,实时追踪商业航班的系统可以在地理地图上可视化数千个航班的信息。如果仅以简单的文本和数字信息显示,就很难识别出交通流量高的枢纽区域。

信息可视化通常借助计算机支持来增强人类的认知能力。早期有两个关于信息可视化的定义:
- 使用计算机支持的交互式抽象数据可视化表示来增强认知。
- 信息可视化利用计算机图形和交互来帮助人类解决问题。

7. 信息可视化工具与应用
  • 工具 :如今,借助从业者和研究人员提供的开源代码和教程,许多在线工具可供使用,如d3.js、JavaScript InfoVis Toolkit、Vega、Prefuse、Plotly、Gephi和Raw等。
  • 应用领域 :信息可视化在多个领域都有应用,包括科学研究、数字图书馆、数据挖掘、信息图形、金融数据分析、市场营销、制造业生产控制、犯罪地图绘制等。
8. 信息可视化作为研究领域

信息可视化是一种高效、有效地以视觉方式传达信息的方法,既具有美学价值,又具有实用功能。它可用于探索知识领域、支持决策过程、验证模型和特定数据集,或简单地展示结果。

早期,Bertin的理论在信息设计领域占据重要地位。他基于实践经验描述了二维静态展示中符号和象征的使用,但遗憾的是没有进行深入评估。此后,信息可视化的概念从静态展示发展到更动态的表示形式。

如今,人们鼓励使用更直观、更具洞察力的可视化方式进行交流。许多学者为该领域做出了贡献,如Tufte提供了各种图形示例的灵感案例;Few介绍了用于分析的实用数据可视化方法;Ware指导了可视化设计与人类感知的关系;Munzner则对过去15年的可视化领域进行了综合概述,提供了丰富的模型和框架。

随着信息的爆炸式增长和获取的便利性,我们对使用交互性更强的可视化方式来传达多维和异构数据集的需求也越来越高。例如,时间序列数据可以使用指数图表、堆叠/流图表示;统计分布可以使用散点图矩阵、平行坐标表示;地图可以使用流图、等值区域图表示;层次结构可以使用节点 - 链接图、邻接图表示;网络可以使用力导向布局、矩阵视图表示。

信息可视化可以根据数据特征、技术和维度管理进行分类。数据集可以仅包含数字、文本、图形或它们的组合。一些学者提供了各种可视化技术的伪代码和算法,并根据数据类型对技术进行了划分,如空间、地理空间、多元、树/图/网络和文本/文档等。同时,也有学者根据使用的数据将可视化分为图形、文本、地图和多元数据可视化四类,并对近年来使用的信息可视化技术进行了分类。

此外,借助开源代码和各种技术工具,用户和观众可以在一个框架内同时可视化多个视图。例如,汽车特征之间的关系可以用散点图矩阵和平行坐标表示;代码包层次结构可以用树形图、笛卡尔节点 - 链接图、太阳爆发图和树形图表示。通过链接和刷选等交互技术,一个可视化的变化可以反映在其他可视化中,从而克服单一可视化技术的局限性。

目前,信息可视化研究有众多的交流平台,主要资源包括:
- 期刊 :ACM SIGGRAPH、IEEE Transactions on Visualization and Computer Graphics、Computer Graphics Forum、IEEE Computer Graphics and Applications、Information Visualization。
- 会议 :IEEE Symposium on Information Visualization (InfoVis)、IEEE Pacific Visualization Symposium (PacificVis)、EuroVis、International Conference on Information Visualization。

总之,可视化数据分析和信息可视化在当今信息时代具有重要意义,它们不仅帮助我们更好地理解和处理数据,还为各个领域的研究和决策提供了有力支持。通过深入了解视觉系统的工作原理和信息可视化的方法,我们可以更有效地设计和使用可视化工具,挖掘数据背后的价值。

可视化数据分析与信息可视化全解析

9. 可视化技术分类与应用示例

信息可视化技术可以根据不同的数据类型和特征进行分类,以下是常见的数据类型及其对应的可视化技术:
| 数据类型 | 可视化技术 |
| ---- | ---- |
| 空间数据 | 地图(如流图、等值区域图) |
| 地理空间数据 | 地理地图上的可视化展示 |
| 多元数据 | 散点图矩阵、平行坐标 |
| 树/图/网络数据 | 节点 - 链接图、邻接图、力导向布局、矩阵视图 |
| 文本/文档数据 | 文本可视化技术(未详细提及) |

下面通过一些具体的示例来说明这些可视化技术的应用:
- 时间序列数据 :可以使用指数图表、堆叠/流图来展示随时间变化的数据趋势。例如,股票价格的历史走势可以用指数图表清晰地呈现,而不同产品在不同时间段的销售份额可以用堆叠/流图展示。
- 统计分布 :散点图矩阵和平行坐标可以用于展示多元数据的统计分布。比如,在分析学生的多门课程成绩时,散点图矩阵可以直观地显示不同课程成绩之间的相关性,平行坐标则可以帮助发现学生在各课程上的成绩分布特征。
- 层次结构 :节点 - 链接图和邻接图常用于表示层次结构数据。例如,公司的组织架构可以用节点 - 链接图清晰地展示各个部门之间的关系,而文件系统的目录结构可以用邻接图表示。
- 网络数据 :力导向布局和矩阵视图适用于展示网络数据。社交网络中用户之间的关系可以用力导向布局直观地呈现,而通信网络中节点之间的连接情况可以用矩阵视图清晰展示。

10. 多可视化技术结合与交互

在实际应用中,为了更全面地展示数据和挖掘数据背后的信息,常常会结合多种可视化技术,并使用交互技术将它们连接起来。例如,在分析汽车特征时,可以同时使用散点图矩阵和平行坐标。散点图矩阵可以展示不同汽车特征(如马力、重量、加速度、排量等)之间的两两关系,而平行坐标可以让用户更直观地比较不同汽车在各个特征上的取值。通过链接和刷选交互技术,当用户在散点图矩阵中选择某一组数据点时,平行坐标中对应的汽车数据也会高亮显示,反之亦然。

又如,对于代码包层次结构,可以使用树形图、笛卡尔节点 - 链接图、太阳爆发图和树形图等多种可视化方式。用户可以根据自己的需求在不同的可视化视图之间切换,并且通过交互操作深入了解代码包的结构和关系。

下面是一个简单的 mermaid 流程图,展示了多可视化技术结合与交互的过程:

graph LR
    A[选择数据] --> B[选择多种可视化技术]
    B --> C[创建多个可视化视图]
    C --> D[应用链接和刷选交互技术]
    D --> E[用户交互操作]
    E --> F[更新可视化视图]
11. 信息可视化的发展趋势

随着技术的不断进步和数据量的不断增加,信息可视化也呈现出一些发展趋势:
- 动态可视化 :从早期的静态展示发展到现在更强调动态可视化。动态可视化可以展示数据随时间的变化、数据之间的交互关系等,让用户更直观地感受数据的变化过程。例如,实时交通流量的动态可视化可以帮助交通管理部门及时做出决策。
- 交互性增强 :用户对可视化的交互需求越来越高。通过交互操作,用户可以自主探索数据、发现数据中的规律和异常。未来,交互方式可能会更加多样化,如手势交互、语音交互等。
- 多模态可视化 :结合多种模态的数据(如文本、图像、音频等)进行可视化。例如,在分析新闻报道时,可以将文本内容与相关的图片、视频等结合起来进行可视化展示,让用户更全面地了解事件。
- 人工智能辅助 :利用人工智能技术(如机器学习、深度学习等)来辅助信息可视化。人工智能可以帮助自动选择合适的可视化技术、发现数据中的模式和趋势,从而提高可视化的效率和质量。

12. 总结与建议

信息可视化在当今信息时代具有不可替代的作用,它能够帮助我们更直观地理解和处理复杂的数据。通过了解视觉系统的工作原理,我们可以更好地设计出符合人类感知特点的可视化方案。同时,结合多种可视化技术和交互手段,可以更全面地展示数据,挖掘数据背后的价值。

以下是一些在进行信息可视化时的建议:
- 根据数据类型选择合适的可视化技术 :不同的数据类型适合不同的可视化方式,选择合适的技术可以更清晰地展示数据特征。
- 注重交互设计 :良好的交互设计可以让用户更深入地探索数据,发现数据中的潜在信息。
- 考虑用户体验 :可视化的最终目的是为用户服务,因此要考虑用户的背景和需求,设计出易于理解和使用的可视化界面。
- 结合多种可视化技术 :对于复杂的数据,可以结合多种可视化技术进行展示,从不同角度呈现数据,提高信息传达的效果。

总之,信息可视化是一个不断发展和创新的领域,我们需要不断学习和探索,以适应日益增长的数据可视化需求。通过合理运用可视化技术,我们可以更好地应对信息爆炸带来的挑战,为各个领域的决策和研究提供有力支持。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值