数据驱动叙事是否需要客观?

原文:towardsdatascience.com/does-data-driven-storytelling-need-to-be-objective-7053a29f3d47

**我一直想学习如何解决魔方。**我大约 10 到 12 岁的时候有一个。我从未成功过。当我成功时,那只是通过“调整”块之间的贴纸。所以,这并不真正算数。

问题是什么?我以为解决魔方是一项智力、逻辑练习。我错了。多亏了一些 YouTube 教程,30 年后,我终于学会了如何解决它。结果是你可以通过遵循一系列算法来完成它。没有魔法——只是记住一些规则和步骤(幸运的是,至少对我来说,还需要一些精神上的努力)。

数据驱动叙事中的魔法

我曾经也遇到过数据驱动叙事的问题。让我们从一个角度来考虑,就像我 10 岁的时候试图解决魔方一样。你可能认为数据驱动叙事是用来向观众讲述关于数据和分析的客观故事——结论、假设、正面和负面。观众应该知道所有的事实,以便做出完全明智的决定。这也可能包括分享那些被证明是错误的分析场景。最终,观众应该得到充分的教育,并能够做出基于数据的决策。但假设他们最终只是在块与块之间更换贴纸呢?

**我们必须承认,人类注意力集中时间相对较短,通常只有 15 到 20 分钟。**再加上各种干扰,比如收到的电子邮件或手机通知,以及忙碌的专业人士每天面临的压力[1]。这让你只剩下很少的时间窗口来有效地传达你的信息。真正的挑战是,你可能不会意识到当观众不断点头并说“是的”时,你已经失去了他们的注意力。

你需要最短和最简单的算法来解决这个魔方!

**你的叙事必须非常高效。**你必须在 15 到 20 分钟内传达观众必须知道的所有信息,以便做出明智的决定。考虑到提问或可能的技术问题,你的时间窗口变得更小。**你需要最短和最简单的算法来解决这个魔方!**不幸的是,与带有贴纸的老式魔方不同,新的魔方通常是由单色块组成,所以无法绕过这个过程。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/8acdb085088774b54258c5741c6eac70.png

来源:作者在 ChatGPT 中生成的图像。

考虑畅销书作者科勒·努斯鲍默·克纳菲克的另一个类比。她用牡蛎和珍珠的隐喻来解释数据可视化。平均来说,你需要打开 100 个牡蛎才能找到一个有珍珠的。想象一下一个演示文稿,我们展示了所有 100 个牡蛎的照片,讨论了每个牡蛎上的模式,最后展示了那个有珍珠的牡蛎。我们将这个珍珠与之前的 99 个进行对比,解释了什么迹象表明里面有一个珍珠。

对于与数据工作的分析师来说,情况也是如此。我们筛选多个来源,使用各种工具和方法,通过勤奋的工作最终找到最有希望的洞察。这使我们能够做出结论性分析,并据此提出建议。但当我们需要展示时,我们需要引导我们的观众了解这个过程的每一步吗?

不,我们不是。原因如下

数据驱动的叙事是主观的。

但这究竟意味着什么?

为了回答这个问题,让我们回顾一下牡蛎示例,并考虑以下两种情景。让我们展示相同的故事,但根据两种不同的情景。

情景 1:我们收集了一组牡蛎样本,其中一些有珍珠,一些没有。我们分析它们的壳的特征、发现地点和其他特征,以确定是否有任何线索表明存在珍珠。然后,我们将向公司管理层展示总结的发现。目标是制定优化牡蛎勘探过程的建议,帮助我们的公司最小化搜索成本并减少对牡蛎的伤害。

情景 2:它基本上开始于相同的程序,但在结果展示过程中,我们不是展示总结,而是逐个检查我们的样本中的每个牡蛎,展示中间的一个或两个有珍珠的牡蛎,并讨论它们的特定特征。然后,我们继续展示剩余的没有珍珠的牡蛎。我们为每个牡蛎都有一个幻灯片!

有趣的是,这两种情况都是有效的方法。然而,只有第一种情况适合数据驱动叙事。第二种情况更侧重于数据发现或讨论。它可以用来形成故事,可以像情景 1 那样展示。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/63de0ba778e5d06233670019b5e6f691.png

牡蛎演示文稿。来源:作者图片,ChatGPT 生成的图片。

缺乏客观性是一个问题吗?

让我重新措辞这个问题:为什么我认为客观性不是数据驱动叙事的标志?

正如我在多次场合所论证的(例如,在下面的链接中),数据驱动叙事通常呈现一个单一、选定的叙述。

如何与非数据人士谈论数据和数据分析

按照这种方法,我们不会引导收件人了解我们研究的细微差别或展示我们进行的所有实验。**虽然我们努力保持客观,但我们不可避免地会选择一个场景,对其进行解释,并提出建议。**分析、场景选择和解释可能会受到主观性的影响,从影响我们感知的认知启发式到我们的知识或经验水平。

考虑到所有这些,很明显,我们不能将我们的数据驱动型叙事完全标签化为客观的。然而,这使它变得不诚实吗?答案当然不是!

除非我们进行探索性研究,观众必须理解所有选项,否则没有必要向我们的商业观众深入探讨每一个细微差别。我们没有时间,这样做会分散我们主要目标——确保我们的建议(或拒绝)得到批准。因此,最好不让他们负担不必要的细节。

尽管如此,我们仍然认为自己(数据)科学家。那么,我们如何应用策略来保持效率,同时不牺牲在向商业利益相关者展示研究结果时的客观性?

如何在主观和客观之间保持平衡?

我们可以考虑以下技术来确保你的数据驱动型演示在保持主观叙述的同时保持专业客观性。平衡这些元素对于讲述引人入胜且值得信赖的故事至关重要。**客观性确保你的数据被准确和可信地呈现,而主观性则允许你突出最相关和最有影响力的洞察。**结合这些方法可以创建一个信息丰富且引人入胜的叙述,帮助你的观众根据清晰、结构良好的信息做出明智的决定。

技术 1. 结构化你的叙述

按照叙事弧线来展示你的数据洞察和建议。首先设定场景并提供背景(参见技术 2),然后通过洞察逐步构建,并以关键发现和建议作为高潮。这种方法有助于逻辑上引导观众理解数据。

<…/Images/2bc5476ac00e811c0544924a3ad1bb86.png>

叙事弧线。 来源:作者基于[2]的图片

技术 2. 永远不要忘记背景

正如我在我的某篇帖子中论证的(以下链接),背景是数据驱动型叙事的王者。

数据驱动型叙事中背景的力量

上下文至关重要,因为它提供了帮助观众理解数据重要性的背景信息。上下文通过解释“谁、什么、如何”来澄清数据,确保观众正确解读,防止误解。它通过建立方法和来源的可靠性来增强可信度,减少怀疑,并建立信任。它还通过将数据与基准或目标对齐来帮助决策,阐明其相关性和影响。最后,它支持叙事流程,使数据更具吸引力和可访问性。

技巧 3. 不要切断你的观众与被省略的研究部分

总是描述你用来设定背景的研究方法。记住,并非所有观众都像你一样熟悉数据科学工具和技术。因此,保持你的描述相对简单,但不要过于简单化。将技术术语限制在必要的范围内。此外,提及一些实验结果被省略,并简要解释为什么这种省略是合理的。通过表明你愿意在有兴趣的观众中提供更多细节来结束。如果可用,为那些想深入了解但在简短演示中无法涵盖的细节的人提供材料的扩展版本。你有责任说:“嘿,我在强调这一点,但我也想让你知道……” [3]。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/eb235214f7fbe9946b4d9cc2b121a469.png

来源:作者在 ChatGPT 中生成的图像。

技巧 4. 使用诚实的可视化

选择正确的可视化类型来传达你的数据。**我在几乎每一篇文章中都提倡这一点。**避免过度复杂的视觉元素,尤其是在讨论复杂问题时。使用条形图进行比较,折线图表示趋势,饼图表示结构,散点图表示变量之间的关系,使你的数据更易于访问和理解。

在你的可视化中保持诚实至关重要。在我的早期文章中(下文链接),我概述了一些避免无意中误导性可视化的做法。确保你的视觉元素清晰和完整有助于建立信任并有效地传达你的信息。

如何(不)在数据可视化中作弊

技巧 5. 保持透明

明确说明在分析过程中做出的任何假设,并承认你数据的局限性。这种开放性可以建立信任,并表明你致力于客观性,即使在呈现主观解释时也是如此。以下是一些你可以说的例子。

假设声明:

  1. 此分析假设样本准确地代表了更大的总体。这个假设基于随机抽样方法,尽管我们认识到可能仍然存在一些固有的偏差。

  2. 我们假设参与者提供的所有自我报告数据都是准确和真实的。虽然自我报告有时可能导致高估或低估,但在这种情况下,它是数据收集的最可行方法。

  3. 我们假设在数据收集期间的经济条件保持稳定,并且没有对结果产生重大影响。这个假设对于隔离感兴趣的变量至关重要。

局限性声明

  1. 用于此分析的数据是在三个月内收集的。因此,任何季节性变化或长期趋势可能无法完全捕捉。

  2. 我们的分析依赖于历史数据,这些数据可能没有考虑到最近的市场条件或消费者行为的变化。因此,结果应谨慎解读,不应仅用于未来的预测。

  3. 数据集有一些缺失值,这些缺失值是通过使用可用数据的平均值来归因的。虽然这是一种常用的方法,但它可能会引入偏差并影响结果的稳健性。

技术六:包括上下文基准

通过将数据与相关的基准或历史数据进行比较,在有意义的环境中呈现您的数据。这些基准可能包括:

  • 计划:例如预算、预测或业务案例预测。

  • 过去绩效:过去时期的历史数据显示了趋势或随时间的变化。

  • 竞争:来自行业同行或竞争对手的数据,以突出我们在市场中的位置。

  • 分析的不同指标类别:例如,比较不同年龄组、地理区域或客户细分市场的行为。

通过将这些比较与数据相关联,您帮助观众理解数字的重要性。这种方法突出了趋势和偏差,并将数据与具体的目标或标准对齐。因此,我们的观众可以更好地理解当前绩效与预期、过去结果、行业标准或特定人口行为的对比。请注意:基准过多不会有效[4]。您选择的基准必须与您的观众或您自己相关且有帮助,以确保您的叙述是合法的。最后,我们应该确保我们理解了与这些基准的偏差,特别是如果变化是显著的话(参见技术 9)。

技术七:鼓励观众互动和反馈

鼓励观众在整个或演示结束后提问和提供反馈。这种方法允许你实时解决任何含糊不清或担忧,确保清晰并培养参与感。互动还提供了一个平台来阐述主观解释和收集不同的观点,这可以丰富整体分析。结合观众的见解可以帮助平衡叙事,使其更加全面和包容。以下,我制作了一个小型的 “速查表”,其中包含你可以提出以鼓励此类反馈的问题。


互动和反馈速查表

开放式问题:

  • 你对这个发现有什么看法?

  • 你是否看到了可能影响这些结果的任何其他因素?

  • 这些数据如何与你在该领域的经验或观察相吻合?

  • 你认为我们是否应该考虑其他见解或观点?

澄清请求:

  • 这个分析中是否有任何部分需要进一步澄清?

  • 你对我们的方法或数据来源有什么疑问?

鼓励多样化的观点:

  • 我很乐意听到不同部门或团队的意见。这些发现如何影响你的工作领域?

  • 这些结果与你在各自领域的观察相比如何?

促进后续讨论:

  • 你还需要哪些额外信息来做出决定?

对演示风格的反馈:

  • 这个演示的节奏对每个人来说都舒适吗?我们应该放慢速度,还是深入任何部分?

  • 你更喜欢更详细的数据还是更高层次的概述来展示这种类型的演示?

最令人恐惧的……

  • 你能看到幻灯片上的数字吗?(通常它们看不到……)

技巧 8. 整合定性数据

用定性见解补充定量数据,以提供更全面的视角。定性数据,如客户评价、案例研究或专家意见,可以为数字增添深度和背景。这种整合有助于使数据人性化,使其更易理解和相关,同时仍基于客观证据。用个人故事或专家评论平衡复杂数据,可以创建一个更吸引人、更有说服力的叙事,与你的观众产生共鸣。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/90755e7fd2282175845f7af30083c763.png

图片由 ODISSEIUnsplash 提供

技巧 9. 寻求反馈并做好准备

在向高调的执行者展示你的见解之前,花时间与同事、商业伙伴或学术联系人进行咨询。寻找可以保持谨慎并提供客观、诚实反馈的易接触的人。对你的结果进行自我审查,检查任何异常趋势,并确保你可以彻底解释它们。在准备自己时,避免用模糊的陈述如,“我明白了,那可能就是这样。我会处理的。”来掩盖异常。这种做法是不够的,尤其是当你面临棘手的问题并感到压力时。

**我的建议是:**彻底排练你的演讲。写下并练习任何复杂或棘手部分的解释。虽然这不能保证成功,但它可以显著提高你的信心和表现。

所有这些的要点是什么?

**学习解决魔方和掌握数据驱动的故事讲述有着惊人的相似之处(就我个人的主观感受而言)。**两者最初似乎都需要纯粹的智力。然而,它们有时更多的是关于遵循结构化的方法和直接的步骤。关键要点是,数据驱动的故事讲述不是用每一个细节压倒观众,而是呈现一个简洁、引人入胜的叙述,引导到明智的决策。通过构建叙述、提供背景、使用诚实的可视化、促进讨论、对假设和限制进行透明度,以及在准备上投入时间,我们可以创造与观众产生共鸣的引人入胜的故事。这种方法确保了,尽管过程中可能涉及主观选择,但最终的故事仍然具有可信度和影响力。


这篇帖子是用 Microsoft Word 草拟的,拼写和语法是用 Grammarly 检查的;我审查并调整了任何修改,以确保准确反映我的意图。所有其他 AI(图像和样本数据生成)的使用都直接在文本中披露。


你喜欢这篇帖子吗?

考虑订阅以获取我的新故事的通知,关注我,或留下 👏 。


参考文献

[1] Lenstore Hub人类注意力的持续时间:我们的头脑何时最易关闭?

[2] 布伦特·戴克斯,有效数据故事讲述

[3] **《隐藏的演讲者》,在展示数据时停止客观

[4] 布伦特·戴克斯,LinkedIn 上的关于简化数据可视化的帖子

基于粒子群优化算法的p-Hub选址优化(Matlab代码实现)内容概要:本文介绍了基于粒子群优化算法(PSO)的p-Hub选址优化问题的研究与实现,重点利用Matlab进行算法编程和仿真。p-Hub选址是物流与交通网络中的关键问题,旨在通过确定最优的枢纽节点位置和非枢纽节点的分配方式,最小化网络总成本。文章详细阐述了粒子群算法的基本原理及其在解决组合优化问题中的适应性改进,结合p-Hub中转网络的特点构建数学模型,并通过Matlab代码实现算法流程,包括初始化、适应度计算、粒子更新与收敛判断等环节。同时可能涉及对算法参数设置、收敛性能及不同规模案例的仿真结果分析,以验证方法的有效性和鲁棒性。; 适合人群:具备一定Matlab编程基础和优化算法理论知识的高校研究生、科研人员及从事物流网络规划、交通系统设计等相关领域的工程技术人员。; 使用场景及目标:①解决物流、航空、通信等网络中的枢纽选址与路径优化问题;②学习并掌握粒子群算法在复杂组合优化问题中的建模与实现方法;③为相关科研项目或实际工程应用提供算法支持与代码参考。; 阅读建议:建议读者结合Matlab代码逐段理解算法实现逻辑,重点关注目标函数建模、粒子编码方式及约束处理策略,并尝试调整参数或拓展模型以加深对算法性能的理解。
内容概要:本文全面介绍了C#全栈开发的学习路径与资源体系,涵盖从基础语法到企业级实战的完整知识链条。内容包括C#官方交互式教程、开发环境搭建(Visual Studio、VS Code、Mono等),以及针对不同应用场景(如控制台、桌面、Web后端、跨平台、游戏、AI)的进阶学习指南。通过多个实战案例——如Windows Forms记事本、WPF学生管理系统、.NET MAUI跨平台动物图鉴、ASP.NET Core实时聊天系统及Unity 3D游戏项目——帮助开发者掌握核心技术栈与架构设计。同时列举了Stack Overflow、Power BI、王者荣耀后端等企业级应用案例,展示C#在高性能场景下的实际运用,并提供了高星开源项目(如SignalR、AutoMapper、Dapper)、生态工具链及一站式学习资源包,助力系统化学习与工程实践。; 适合人群:具备一定编程基础,工作1-3年的研发人员,尤其是希望转型全栈或深耕C#技术栈的开发者; 使用场景及目标:①系统掌握C#在不同领域的应用技术栈;②通过真实项目理解分层架构、MVVM、实时通信、异步处理等核心设计思想;③对接企业级开发标准,提升工程能力和实战水平; 阅读建议:此资源以开发简化版Spring学习其原理和内核,不仅是代码编写实现也更注重内容上的需求分析和方案设计,所以在学习的过程要结合这些内容一起来实践,并调试对应的代码。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值