【论文阅读】-- Temporal Summary Images：通过交互式注释生成和放置实现叙事可视化的方法

本文链接：https://blog.youkuaiyun.com/weixin_46112690/article/details/139998722

在这里插入图片描述

Temporal Summary Images: An Approach to Narrative Visualization via Interactive Annotation Generation and Placement

期刊: IEEE Trans. Vis. Comput. Graph.（发表日期: 2017）
作者: Chris Bryan; Kwan-Liu Ma; Jonathan Woodring

在这里插入图片描述

摘要

可视化是一种用于分析和交流复杂、多维和时变数据的强大技术。然而，由于可视化属性的数量、各种显着特征以及解释兴趣点 (POI) 所需的意识，在图表或图形中手动合成连贯的叙述可能很困难。我们提出时间摘要图像（TSI）作为探索这些数据并从中创建故事的方法。作为一种可视化，TSI 由三个常见组件组成：(1) 时间布局、(2) 漫画风格的数据快照和 (3) 文本注释。为了增强用户分析和探索，我们开发了许多交互式技术来推荐相关的数据特征和设计选择，包括自动注释工作流程。随着分析和视觉设计过程的融合，生成的图像变得适合用数据讲述故事。为了进行验证，我们使用 TSI 的原型实现来利用大规模科学模拟数据集进行两个案例研究。

关键词：叙事可视化、讲故事、注释、漫画可视化、时变数据。

1 引言

对于那些经常需要从数据集中分析和提取基本信息，然后与其他人交流发现的人来说，可视化可以用作探索性和解释性工具。尽管已经开发了许多视觉分析方法，但对创建叙事可视化的支持较少。特别是，随着数据变得庞大、复杂、多维，有时甚至是异构的，手动筛选、识别和突出显示图表或图形的基本方面就成为一项艰巨的任务。如果在探索和分析的过程中，可视化系统建议选择和标记重要的区域和特征，以便导出在后续任务或演示中使用的数据故事，那将是令人期望的。

为了帮助解决这个问题，我们提出了时间摘要图像（TSIs），这是一个用于创建多元时变数据集的叙事可视化的框架。从视觉上看，TSI 由三个常见组件组成：(1) 时间布局视图，例如折线图或故事情节，(2) 在相关时间步附加的数据快照，以及 (3) 锚定文本注释。图 1 显示了一个 TSI 示例。它简洁地讲述了一个关于美国移民的故事，使用堆叠图作为时间布局，五张地图作为数据快照集，以及六个描述性注释。

本文的重点不仅仅是 TSI 设计师可以制作的最终确定的“演示风格”图像。相反，我们强调分析和设计过程的融合。为了增强探索，我们贡献了许多交互式“幕后”技术。它们通过执行两项任务来协助数据交互和可视化创建：(1) 选择数据快照的相关时间步长；(2) 提供用户循环的自动注释工作流程，以推荐数据兴趣点 (POI)展示。本文的大部分内容都集中在这种新颖的注释支持上，它会自动创建、评分、排名并将数据驱动的注释附加到显示器上。在分析过程中，它们会提醒用户注意显着的视觉区域和重要的数据特征。如果需要，可以保存推荐的注释，并随后在将 TSI 呈现给一般受众时用于传达有关数据的关键数据观察结果。

此外，随着整个探索和构建过程的发生，设计人员会搜索、过滤和编辑要显示的数据，同时调整其整体视觉外观。当这两项任务综合在一起时，就会有效地出现一个统一的汇总数据故事，强调基础数据集的重要方面和趋势。根据作者的目的，进一步风格化组件会产生适合演示或公开展示的图像。

我们基于本文描述的框架和技术创建了一个原型 TSI 应用程序。为了进行验证，我们使用大规模科学模拟数据集（分别是疾病模型和宇宙学模型）进行了两个案例研究。根据领域参与者的反馈，我们的方法对于分析和总结数据集都是有效的。

2 背景及相关工作

相关的先前工作分为两大类：（1）叙事可视化和讲故事作为数据交流的方法，以及（2）TSI 的三个特定视觉组成部分：时变技术、小倍数（也称为漫画）和注释。

2.1 叙事可视化和讲故事

Segel 和 Heer 在 [35] 中对叙事可视化进行了分类和评论。他们为此描述了七种特定类型，包括带注释的图表/图表和漫画可视化。可以通过优先考虑数据的特定解释或感知来构建叙事可视化来讲述数据故事[19]。

数据讲故事的概念本身已在 InfoVis、SciVis 和商业社区中得到强调 [15,23,25,28]。这里的重点是如何利用电影、文学和戏剧叙事惯例来调整可视化效果，以便与广大受众进行交流。在[26]中，Lee 等人。主张明确定义数据故事的范围，并提出基于以下任务的视觉故事讲述的三步流程：（1）找到见解，（2）创建一个故事，（3）讲述故事。我们将 TSI 流程重点关注前两点：探索数据和创建演示质量的可视化。

在更广泛的通信可视化设计背景下，Moere 和 Leuven 在 [32] 中认为，美学构成了可视化的第三个重要约束（除了合理性和实用性之外）。最近的论文重点关注创建信息图表或演示风格可视化的工作流程方面 [7,34,39,46]，尽管大多数论文需要完全手动设计，而不考虑分析任务。虽然某些工具结合了这两个目标 [16, 36]，但它们的设计是针对 TSI 框架所解决的一组不同的任务。

2.2 显示面向时间的数据

TSI 中最大的视觉组件是用于显示时变数据的时间布局。选择的布局取决于作者的判断力；我们在当前框架中讨论的四个选项是用于纯数字数据的折线图和流图[10]，以及用于基于流的分类数据的故事情节[40]和冲积图[33]。虽然这些是众所周知的传统技术（我们因此选择它们），但还有更多潜在的方法来显示随时间变化的数据 [5]，这些方法是根据特定数据集或美学设计的。

除了简单的视觉绘图之外，多组件系统还可以通过链接的显示或附加的视觉组件来增强时间视图，通常是为了实现数据分析。例如，STAC [42] 和 PieceStack [43] 系统专注于堆叠图的分析。 ChronoLenses [44] 是一个基于透镜的折线图数据转换管道。 SemanticTimeZoom 系统 [6] 通过在图表中结合定性和定量视觉效果来支持数据分析。这些技术支持与底层数据的详细交互和理解，但这样做的代价是必须专注于特定的视觉布局（即仅流图），并且不考虑数据故事讲述或呈现。相比之下，TSI 可以显示多种类型的时间视图，并使用文本注释作为传达定性数据观察的方式，而不需要 TSI 作者/查看者进行培训来解释其含义。

2.3 小倍数和漫画

小倍数使用一组离散数据增量的视图（或框架）来显示一个或多个维度的变化[41]。当这种变化倾向于遵循严格的线性数据路径（即使涉及缩放和过滤）时，该技术可以被定义为叙事可视化的漫画风格[35]。

之前的工作使用漫画可视化作为总结或呈现数据的方式[12,45,46]。相反，VizPattern 系统使用漫画作为创建可视化查询的界面，以生成数据图表[21]。最近一篇名为 Graph Comics [7] 的论文使用漫画来总结网络随时间的变化。通过附加文本标题、标签和注释来突出显示时态数据演变的特定方面，从而对框架进行风格化。然而，所有的设计和构建都是由系统用户手动执行的。

TSI 数据快照组件采用漫画技术。为了帮助选择要显示的快照，我们提出了三种时间步长选择算法，请参见第 4.2 节。这类似于一些先前的系统（例如[45]），因为时间步长是使用距离和聚类启发式选择的。 TSI 作者选择所需的时间步长选择技术和所需的数据属性来进行分段，并且可以手动调整结果或选择不同的算法，直到找到可接受的结果。

2.4 注释可视化

对显着特征的感知理解对于图形和图表的理解很重要[18]。基于文本的注释通过“以图形方式将”观看者的注意力指向感兴趣的区域来帮助这一过程，并且可用于提出结论并提供数据上下文[35]。

在[20]中，作者定义了专门将可视化数据引用为观察数据的注释，而附加注释提供了视图本身中未显示的额外信息。通过草图创建的注释被定义为自由格式，在异步、协作环境和新闻/信息图表设计中尤其重要 [11, 17]。或者，通过查询底层数据集并引用视觉布局来生成和放置数据驱动的注释 [20, 22]。

自动创建的数据驱动注释尝试识别和标记数据集/可视化最有趣的功能或整体主题。 Google Drive 最近为其电子表格应用程序推出了“语言化”[1]，该应用程序创建带有描述性标题的数据图表。在[22]中，Kandogan 引入了一个系统来注释基于点的数据可视化中的集群、异常值和趋势。 Kong 和 Agrawala 在 [24] 中创建了一种观察注释方法，该方法可以标记已创建的图表的特征和维度，而不引用底层的原始数据值。

与本文特别相关的工作是 Hullman 等人的工作。 [20]。他们通过将价格极值与从数据库中检索到的时间相关的新闻报道相匹配来注释股票市场的时间线。这使他们能够创建上下文感知的附加注释。 [14]中使用了类似的方法来注释地理地图。相比之下，TSI 框架可以创建附加和观察类型的注释，重点是放置。注释还可以应用于不同类型的时变视觉技术（不仅仅是折线图）。

3 设计要求和工作流程

TSI 的动机来自与 EpiSimS 疾病模拟团队的讨论（案例研究请参见第 6.1.1 节）。该小组的成员虽然精通流行病研究，但不是可视化专家，并且在使用复杂的视觉分析和设计工具方面经验有限。根据他们通常的分析需求以及创建图像供审核所采取的步骤，我们为团队定义了以下一组特定任务：

T1 沿时空维度的结果。 EpiSimS 仿真输出数据有两个主要维度轴。 (1) 疾病传播发生在流行病增长、高峰和衰退的一段时间内。 (2) 这种传播发生在一个地理区域内，通常最初通过热点，然后完全扩散。

T2 通过查询特征进行数据分析。 EpiSimS 科学家对其领域数据非常熟悉，这指导了他们的探索。他们的主要重点是了解模拟输入参数和缓解策略如何影响特定兴趣点 (POI) 的流行病生命周期行为，例如疫情爆发的高峰或其在人口统计中的分布。这是通过 SQL 或基于表的电子表格函数查询基础数据集来完成的。

T3 使用传统工具进行演示。为了向合作者或一般受众（例如在会议或论文中）展示结果，需要使用静态图（折线图、地图等），这些图是通过 R 或 Python 的 matplotlib 库等工具创建的。使用图像编辑软件将它们组合起来并添加标题。

尽管这些任务是 EpiSimS 团队特有的，但它们很容易被推广。从广义上讲，研究人员和图表设计者可能首先希望快速查看、分析和探索他们的数据以获取相关特征或 POI。然后，他们用一组视觉元素总结结果以进行演示或讲故事。与在没有指导的情况下手动执行这些任务相反，TSI 框架将它们组合到单个工作流程中，并提供增强分析和图像构建过程的技术。为了正式证明本文其余部分讨论的设计组件和交互技术的合理性，我们首先定义 TSI 框架应遵循的一组准则：

DG1 Temporal-plus 数据视图。数据集应该在（至少）两个主要维度轴上可视化：时变域加上一个或多个“其他”维度。从 EpiSimS 特定任务的概括中，空间域被抽象出来；现在它只需要与时间轴正交。

DG2 突出显示重要元素。应突出显示重要的数据集特征和 POI，以首先引起创建 TSI 的作者的注意，然后引起观察完整 TSI 的查看者的注意。

DG3 简洁的演示视图。完整或“构建”的 TSI 应适合作为单个、相互连接的静态图形进行数据呈现或讲故事。在创建过程中，这意味着强调根据作者的喜好设计和配置 TSI 的图形组件，然后将图像导出为适合显示的格式。在可视化理论的背景下，这表明可以使用传统的或广泛理解的视觉技术，因为它们更容易被普通观众理解。

选择了三个视觉组