论文研读 - AI4VIS- ADVISor:基于表格数据根据自然语言问题构建可视化

ADVISor是一款基于深度学习的系统,能根据表格数据和自然语言问题生成可视化和注释。它解决了现有工具对自然语言理解的限制,能够处理更广泛的自然语言输入,降低了用户构建可视化的门槛。通过预先训练的BERT模型,ADVISor解析问题和表头,确定数据区域、聚合类型,并生成相应的可视化。在与NL4DV等先进工具的比较中,ADVISor表现出更高的精度和效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 论文概述

北大袁晓如老师团队,2021年IEEE PacificVis论文,主要内容为基于表格数据根据自然语言问题构建可视化。

1.1 摘要

我们提出了一个自动流程来生成带有注释的可视化,以回答公众在表格数据上提出的自然语言问题。通过预先训练的语言表示模型,输入的自然语言问题和表格标题首先被编码成向量。根据这些向量,多任务端到端深度神经网络提取相关数据区域和相应的聚合类型。我们通过为不同的属性类型和任务精心设计的可视化和注释来呈现结果。我们用最先进的作品和最好的商业工具进行了比较实验。结果表明,该方法具有较高的精度和可视化效果。

1.2 引言

背景:
用户和公司对数据分析的需求越来越大。在数据分析过程中,生成数据可视化是一种常用的显示数据特征(如分布、离群值)的方法,而不是直接显示数据表,因为它是一种更有效的表达特征的方式。有些工具(例如,PowerBI)根据用户选择的列和行以及选择的可视化生成可视化。然而,构建相应的可视化需要数据和可视化方面的专业知识。一方面,用户可能对哪部分数据(数据项和属性)能够满足他们的需求没有足够的预先知识。另一方面,对于没有可视化设计经验的公众来说,构建合适的可视化和注释是非常重要的。用户需要考虑哪种类型的可视化可以很好地呈现数据。

解决方案:

  • 前人方案:
    为了降低公众从数据构建可视化的障碍,自然语言是表达用户需求的合适选择。因此,有几个作品以自然语言作为界面来构建可视化[4,8,17,34],极大地降低了用户的使用障碍。然而,这些作品中的自然语言的语义解析步骤是基于简单的词匹配,无法处理自然语言中的歧义和欠规范问题。为了实现更好的准确性,这些作品将自然语言限制为预定义模板中的命令或任务来绘制可视化。这样的预定义命令和任务仍然需要用户具有可视化设计的专业知识决定如何操作和可视化数据。
  • 本文方案:
  1. 问答机制。以具有两个属性(year and oil production)的简单表格数据为例,说明命令、任务和问题。“显示石油产量和年份折线图”是一个清晰描述属性和可视化类型的命令。“展示石油产量和年份之间的关系”是一个描述抽象可视化任务的任务。但是,在观察数据表时,用户可能会对数据有一些不受限制的问题,这些问题不会直接以命令或任务的形式出现。例如,“哪一年的石油产量最高?”“哪一年的石油产量在200 ~ 300兆瓦时?”、“今年石油产量的趋势是什么?”等等。显然,与任务和命令相比,问题具有更大的覆盖范围,也比任务和命令更直接地呈现用户的直接想法。我们定义了一个没有模板和限制的问题,但是可以将需求清晰地表示为一个开放领域的问题。如果开放域问题能够被精确地解析,那么由于开放域问题的难度较低,可视化可以被更大范围的人访问。
  2. 可视化生成。我们提出了一个基于深度学习的流程,ADVISor,用于在表格数据上回答自然语言问题以生成带有注释的可视化。给定表格数据和一个自然语言问题作为输入,我们使用一个预先训练的语言表示模型将数据属性和问题解析为向量。几个分类模块根据问题和属性向量决定数据区域(数据项和属性)和聚合类型(包括汇总、平均、极值)。可视化和注释类型由所选属性和属性类型以及聚合类型决定。精心设计的可视化和注释是通过可视化和注释提取的数据项和属性来生成的。
  3. 语义解析模型。使用WikiSQL数据集来训练语义解析模型,这已经被之前的工作证明足以训练我们的模型具有较高的准确性。然后,我们将训练过的模型部署到演示系统中,以显示表格数据和相应问题的可视化结果。一旦选择了数据表,用户可以直接与我们的系统对话,提出他们的问题,然后在几秒钟内获得可视化的答案和注释。

评估:
将ADVISor与用于可视化构建工作的最先进的自然语言接口NL4DV[17]进行了比较

贡献:
可视化生成与注释

2 相关工作

2.1 表格数据可视化

提出了各种可视化构造工具来支持表格数据的可视化探索。许多方法使用模块化函数来构造可视化;一些业务工具如Tableau[1]和ManyEyes[29],提供了生成、共享和发布可视化的方法,而无需编写任何代码。
上述方法和工具要求用户指定数据属性和可视通道之间的关系,这可能会阻碍新手顺利进行可视化数据探索。因此,一些作品也专注于推荐可能的可视化。Keshif[33]专注于根据规则自动生成属性摘要。SeeDB[28]使用基于偏差的度量推荐适当的数据属性。Voyager[30]推荐了一组基于某些度量的自动生成图表供用户选择,以减轻用户手动选择属性和编码的负担。
而我们的系统可以直接根据用户提供的任务生成可视化

2.2 用于可

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值