大多数可视分析系统假设所有的数据搜寻都发生在分析过程之前;一旦分析开始,考虑的数据属性集就固定了。数据构建与分析的这种分离排除了迭代,这种迭代可以根据分析过程中现场出现的需求进行搜寻。搜寻循环与数据分析任务的分离会限制分析的速度和范围。在本文中,我们介绍了CAVA,一个将数据管理和数据增强与传统的数据探索和分析任务相结合的系统,使信息能够在分析过程中就地采集。确定要添加到数据集中的属性很困难,因为它需要人工知识来确定哪些可用属性将有助于后续的分析任务。CAVA抓取知识图,为用户提供从外部数据中提取的一组广泛的属性供选择。然后,用户可以在知识图上指定复杂的操作来构造附加属性。CAVA展示了可视化分析如何通过让用户可视化地探索可用数据集以及作为查询构建的界面来帮助用户搜索属性。它还提供了知识图本身的可视化,以帮助用户理解复杂的连接,如多跳聚合。我们评估我们的系统的能力,使用户能够在两个数据集的用户研究中执行复杂的数据组合,而无需编程。然后,我们通过两个额外的使用场景来展示CAVA的通用性。评估结果证实,CAVA可有效帮助用户执行数据采集,从而改善分析结果,并为支持将数据增强集成为可视化分析管道的一部分提供证据
在这项工作中,我们提出以下贡献:
- 我们提出了一个可视化分析系统,CAVA,用于使用知识图谱进行探索性数据增强。我们还描述了使用可视化作为查询构建和知识图谱探索的媒介的设计过程。
- 我们提供了CAVA应用于洞察生成和预测建模的使用场景,以展示我们方法的通用性。
- 我们进行了一项初步的用户研究,以评估我们的系统在跨两个不同任务连接语义上有意义的外部数据方面的可用性,为我们的设计提供验证。