评估 ChatGPT 的数据分析改进:交互式表格和图表

原文:towardsdatascience.com/evaluating-chatgpts-data-analysis-improvements-interactive-tables-and-charts-622d3e5a3816

在 2024 年 5 月,随着令人兴奋的 GPT-4o 的发布,OpenAI 宣布了其在 ChatGPT 中数据分析的改进,包括交互式表格和图表,以及与 Google Drive 和 Microsoft OneDrive 的集成。

在这篇文章中,我将评估这些新功能,并展望 ChatGPT 在数据分析领域的未来。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/d5c7cdc4895ea4e5540dc314087ce8e8.png

图片由Choong Deng XiangUnsplash上提供


ChatGPT 数据分析简史

ChatGPT 进入数据分析的旅程始于 2023 年 3 月代码解释器的引入,该解释器于 2023 年 7 月推广给 Plus 用户。

之后,OpenAI 将其重新命名为高级数据分析,然后是数据分析,现在是数据分析员,作为官方 GPT 之一。今天,您可以使用独立的 Data Analyst GPT 或直接提示 ChatGPT 执行数据分析功能。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/fd26785f994c0cd72556661dd6306e7a.png

由 ChatGPT 团队创建的 GPTs(作者截图)

OpenAI 一直在不断改进这些功能。值得注意的是,它在 2024 年 5 月宣布了ChatGPT 中数据分析的改进,增强了与表格和图表交互的能力。

您可以在这里找到他们最新的帮助中心文章:使用 ChatGPT 进行数据分析


评估最近的 ChatGPT 数据分析增强

在我之前的一篇文章评估 ChatGPT 在数据科学中的应用:以客户流失预测分析为例中,我使用 ChatGPT 进行了一个真实的数据科学用例。尽管它提供了快速且逻辑清晰的分析,但我得出结论,由于数据准备、数据科学专业知识和商业知识的差距,ChatGPT 尚未准备好取代熟练的数据科学家。

在本节中,我将评估最新的功能:在 ChatGPT 中与表格和图表交互。

1. 加载数据集并预览

让我们从实际例子开始。我将使用来自Kaggle(CC0 许可)的电子商务公司交易数据集。假设我是一个销售经理,试图分析这个数据集以识别销售增长机会。这是我的提示:

### Context
I am a sales manager working at a UK-based e-commerce (online retail) company. 
This London-based shop has been selling gifts and homewares for adults and children through the website since 2007\. 
Their customers come from all over the world and usually make direct purchases for themselves. 
There are also small businesses that buy in bulk and sell to other customers through retail outlet channels.

### Dataset
I have a sales transaction dataset for one year. 
The data set contains 500K rows and 8 columns. 
The following is the description of each column.
- TransactionNo (categorical): a six-digit unique number that defines each transaction. The letter "C" in the code indicates a cancellation.
- Date (numeric): the date when each transaction was generated.
- ProductNo (categorical): a five or six-digit unique character used to identify a specific product.
- Product (categorical): product/item name.
- Price (numeric): the price of each product per unit in pound sterling (£).
- Quantity (numeric): the quantity of each product per transaction. Negative values related to cancelled transactions.
- CustomerNo (categorical): a five-digit unique number that defines each customer.
- Country (categorical): name of the country where the customer resides.

There is a small percentage of order cancellations in the data set. 
Most of these cancellations were due to out-of-stock conditions on some products. 
Under this situation, customers tend to cancel an order as they want all products delivered all at once.

### Objective
My goal is to use this dataset to gain insights and develop sales strategy to drive sales growth. 
You are assisting me in analyzing this dataset today. 
Please load the dataset for me.

以前,将数据集上传到 ChatGPT 只会显示一个文件图标。但现在,ChatGPT 创建了一个可以展开到全屏视图的交互式表格,以便更仔细地查看数据。它还提供了建议的提示,以引导你更深入地了解数据。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e518247c6b4e0424a747a0c85db5e672.png

上传数据文件后的数据集预览以及建议的提示(作者截图)

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/cfcabdc2edeb0dfe5b702103023cda2e.png

交互式表格展开到全屏视图(作者截图)

此外,你现在可以从 Google Drive 或 Microsoft OneDrive 将数据文件上传到 ChatGPT,这使得文件管理和共享更加容易,特别是对于团队或企业用户。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/180dd866fdbd1ac0fe5c97c8c2568f73.png

新的文件上传选项(作者截图)

2. 生成和自定义可视化

接下来,让我们提出一个简单但重要的问题:“分析月销售趋势。”ChatGPT 生成了一张简单的折线图,我可以对其进行扩展并与之交互。

首先,当你悬停在点上时,它会在工具提示中显示值。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/7f76e87105df47e53c0c3492dd5db792.png

交互式折线图示例(作者截图)

其次,你可以通过点击右上角的设置图标来更改线条颜色,并使用你喜欢的颜色方案轻松地将图表下载为 PNG 格式。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/2d47082390dbeceba02b1e9d750e47e5.png

调整图表的线条颜色(作者截图)

然而,并非所有可视化类型都受支持。例如,我要求 ChatGPT 在一张图表中绘制月销售量和交易数量。它正确地生成了图表,但不是以交互式格式。

根据 OpenAI 的帮助中心文章数据分析与 ChatGPT

“目前,在大多数情况下,只有柱状图、饼图、散点图和折线图是交互式的。ChatGPT 可以生成各种非交互式图表,包括:直方图、散点图、箱线图(箱线图)、热力图、面积图、雷达图、树状图、气泡图和水流图。”

尽管折线图被列为支持类型,但更复杂或细微的折线图(例如,具有两个坐标轴的图表)仍然是静态的。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a96c896173a8918c08a67eb3c987d534.png

具有两个轴的折线图保持静态(作者截图)

3. 观察和引用表格

现在让我们尝试与表格交互。我扩展了 ChatGPT 计算的月销售和交易表,点击第 12 行,并要求 ChatGPT 调查 11 月的销售激增。这是我们审查业务指标时常见的数据问题。您可以看到在聊天中引用了“#12 行”,这有助于 ChatGPT 理解上下文。它合理地响应,列出了 11 月销售的前产品及其对激增的假设。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0b5d857f7626d7355e67ab92b393ef69.png

引用表格的一行(作者截图)

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5d8131c0ba44da84d33f90fdb0b4f1c4.png

ChatGPT 对 11 月销售激增的响应(作者截图)

您还可以选择一组单元格。例如,我选择了前 10 个产品,并要求 ChatGPT 展示它们的月销售趋势,看看它们是否都在 11 月有销售激增。ChatGPT 捕捉到了这 10 个产品的列表,并提供了它们的月度趋势及其见解。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/3ab34c663cf61686d3df0c914b416d96.png

引用一组单元格(作者截图)

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/05bcacbfc851c0aef01b8c92670f61be.png

ChatGPT 对前 10 个产品月销售趋势的响应(作者截图)

交互式表格和图表的应用案例

我们在 ChatGPT 中测试了与表格和图表交互的新功能。在我看来,这次更新主要针对非数据专业人士,降低了他们进行数据分析的门槛。

  1. 效率:现在,用户可以使用交互式表格以更类似 Excel 的方式探索数据,但效率提高 10 倍。在我的例子中,在 Excel 中创建月销售趋势图需要几个步骤——创建一个新列计算销售额(数量 x 价格),将表格旋转以按月计算总销售额,并生成折线图。但现在,您只需与 ChatGPT 交谈即可完成。

  2. 引导分析:建议的提示充当数据分析助手,当用户不确定下一步该怎么做时,引导他们更深入地探索数据。

  3. 准备好的演示文稿视觉元素:能够自定义可视化使得非技术利益相关者更容易准备支持其商业决策的演示文稿数据证据。

ChatGPT 数据分析的未来方向?

那么,你对这些更新有什么看法?说实话,尽管有进步,但我发现当前的交互有些受限,感觉像是未来更新的 MVP。从字里行间来看,我感觉 OpenAI 的目标是雄心勃勃的。这里是我的大胆猜测:OpenAI 可能正在构建一个基于对话的商业智能(BI)工具

这里有一些线索:

  1. 产品进化: 识别何时输出交互式表格/图表的基础工作已完成,扩展这些功能是下一个逻辑步骤。如果他们仅仅止步于此,说“是的,线条/柱状的颜色是你唯一能改变的东西。”我会感到惊讶 😂 受他们目前提供的功能的启发,我希望 ChatGPT 支持更多交互式图表类型;我希望我能进一步自定义图表(标题、轴标签、图例等);我希望我能在图表上直接选择数据点,并在聊天中引用它来提问和进行深入分析;我希望我能够直接格式化表格单元格……在写完所有这些想法后,我意识到我正在构想一个 BI 工具!

  2. 目标用例: 在新发布页面的“ChatGPT 中数据分析是如何工作的”段落中,OpenAI 表示“这使得初学者更容易进行深入分析,并为专家节省了在常规数据清理任务上的时间.”因此,他们当前的目标用例是数据清理和初步探索性数据分析(EDA),这些在 BI 工具(如 Looker 和 Tableau)以及当然 Excel 中得到了大量支持。这表明可能进入 BI 领域的潜在步骤。

  3. 目标用户: 新功能受益于那些不是数据专家但需要基本数据探索或准备好的图表的业务利益相关者。每个数据团队都梦想着让他们的业务利益相关者能够自助。目前,利益相关者与数据的互动通常涉及 BI 工具来探索数据集和创建可视化图表和仪表板。然而,他们主要的挑战是正确理解数据以及以正确的方式探索数据来回答他们的业务问题。这些都是 ChatGPT 的优势,使其在现有 BI 工具中具有优势。

  4. 特征名称变更:我可能过度解读了,但他们对这个功能多次更名(代码解释器 -> 高级数据分析 -> 数据分析/数据分析师)确实很有趣。这种演变表明,他们在寻找产品市场匹配和潜在的货币化机会时,关注点发生了转变。以下是我的理论:最初,当他们认识到基于 AI 的数据科学的潜力时,他们将“高级数据分析”与“代码解释器”分开。后来,他们意识到在数据科学中使其更加“高级”具有挑战性,但市场上对能够作为数据分析师的聊天机器人有更广泛的需求,它能帮助进行日常数据探索和报告。那么数据分析师做什么呢?如今,他们的大部分时间都花在 BI 工具中构建仪表板,用于指标报告和为利益相关者进行监控。因此,为了使 ChatGPT 成为数据分析师,扩展其 BI 功能是有意义的。

作为 BI 工具的挑战

但当然,将 ChatGPT 构建成一个完全功能的 BI 工具也伴随着几个挑战:

  1. 准确性:我们都知道 ChatGPT 会犯错误。然而,在商业环境中,特别是对于数据知识较少的商业用户来说,提供准确和可靠的信息至关重要。在上面的例子中,为了计算月销售额,我不得不要求它创建一个新的列销售额 = 价格 x 数量。当我要求它直接绘制月销售额趋势时,它有时会汇总价格列,有时会汇总数量列。虽然我能够发现这个问题并通过额外的步骤进行纠正,但你不能总是期望利益相关者也能这样做。

  2. 稳定性:ChatGPT 的输出可能不一致。当我发现 ChatGPT 输出交互式图表/表格与静态图表时,我感到很困惑……为了制作上述截图,我至少与 ChatGPT 就同一数据集进行了六个不同的提示的对话。

  3. 数据大小限制:根据帮助中心文章,“每次对话中最多可以上传 10 个文件”且每个文件的大小限制为“每文件 512 MB。对于 CSV 文件或电子表格,文件大小不能超过大约 50MB,具体取决于每行的尺寸。”现实世界的数据集很容易超过这个大小限制。

  4. 短会话:当我返回昨天的聊天时,我无法再查看带有错误消息“无法显示可视化”的表格。在商业环境中,能够重新访问并继续探索数据集的能力是至关重要的,可能受到新的商业想法的启发或想要解决后续问题。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/2597188b3c08451f57bfd776f37f7757.png

“当我返回昨天的聊天时无法显示可视化”(作者截图)


结论

总结来说,ChatGPT 最近推出的交互式表格和图表功能针对的是非数据专业人士,使得数据分析更加易于接触和高效。用户可以在建议的提示下通过视觉方式与数据互动,并自定义可视化以满足他们的展示需求。

这种发展甚至可能为一种强大的基于对话的 BI 工具铺平道路,该工具可以使业务利益相关者在基本的数据探索和报告中更加自助。

你尝试过 ChatGPT 中的新数据分析功能了吗?在下面的评论中分享你的体验,并告诉我你对我的理论的看法。


所有图片,除非另有说明,均为作者所有。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值