有人曾经说过:“如果您无法测量某些东西,您将无法理解它。” 这种信念的另一种说法是:“如果无法衡量,那就不存在。” 这是一种错误的思维方式-一种谬论-实际上有时被称为麦克纳马拉谬论。 这种思维方式可能对国家事务和个人医疗产生可怕的后果(例如在癌症患者中应用“无进展生存”指标,在肿瘤患者中肿瘤的减少被认为是胜利,而肿瘤的质量相应降低)。生活被忽略)。
同样,在数据科学和分析领域,我们经常被这种相同的思维方式所吸引。 定量数据是我们数学模型的现成输入。 可量化的预测模型和规范模型的警号难以抗拒。 如果我们模型的输出是定量的(例如,准确性,精度,召回率或其他某种验证指标),那么为什么不输入我们模型的输入呢? 这不是数据驱动的本质吗?
当我们说“数据驱动”时,我们实际上是在说“基于证据”。 证据不仅是定量的。 同样,数据不仅是定量的。 因此,我们急于更加定量化的是定性数据集的巨大价值。 定性数据的价值来自多种方面,包括:
- 它提供了其他功能,可以提高我们分析模型的准确性,可用性和解释能力;
- 它将定量数据置于适当的上下文中(这可以防止在错误的上下文中错误使用我们的模型);
- 它有助于建立人类故事,叙述以及对模型结果的接受(并最终倡导); 和
- 顾名思义,它有助于我们评估(甚至验证)分析结果的质量。
我们将通过回答与定性数据有关的四个基本问题来探索这些想法:
1.我们遇到定性数据有哪些方式?
定性数据可以来自调查,客户响应表,文档,甚至社交媒体。 这些是组织已经收集并利用以获取重要见解的宝贵信息来源。 从历史上看,对定性数据的分析往往是非常耗费人力的,因为我们不能只针对文档提交数据库查询并获得一些可用于可视化的数字。 因此,历史定性数据分析的范围通常受到限制。 但是,这种情况现在正在Swift改变。 将定性数据转换为定量数据的方法越来越多,从而释放了定量分析对定性数据的全部功能。 某些转换方法包括评分(为特定的定性反应或评论分配数字等级或分数),情感分析(为定性数据中表示的情感分配正值或负值,然后为其强度指定一个数值)情感),文本分析(以定量方式汇总文本信息的内容,例如主题模型和热图)以及自然语言和语义处理(从语言中提取含义,无论是书面还是口头的)。 因此,定性数据已经是大数据世界中的头等公民,应给予他们平等的机会,以提供业务见解和价值。
2.在得出洞见方面,定性数据和定量数据之间有哪些异同?
由于定性数据通常是非定量数据,因此这意味着这些数据是非结构化的,通常是文本数据。 它们可能来自客户调查,回复表单,在线论坛,Web表单上的反馈评论栏,书面评论,打给呼叫中心的电话,传闻(例如,由我们的销售人员或营销团队收集的证据),新闻报道等等。 。 因此,从此类数据中提取结构和客观见解需要一个模型:我们如何为收集的单词或注释或调查反馈建模? 我们分配给不同内容的权重是多少? 我们如何结合和整合多种资源? 这些问题的答案与我们处理定量数据时对这些完全相同的问题的答案并没有太大的不同。 最大的不同是,定量数据已经以某种形式在电子表格中处理,显示在仪表板中或绘制在图形上。 在决定如何将定性数据转换为定量形式时,需要做出一些决定(可能是主观的)。 因此,这是一个挑战,但同时也是一个巨大的机会–我们可以使用更多的语言微妙和错综复杂的语言来从关于客户,员工和合作伙伴的定性数据源中提取出更深刻的理解和更深层的含义。
3.对于定性数据集,数据科学的分析和统计过程有何不同?
首先,需要比定量数据更丰富的转换集(在这种转换下,以零比一的比例对数据进行归一化,或者以某种数学方式组合变量,或者为不同的度量分配数值权重可能就足够了)在合并它们之前,或者定义不同属性之间的简单数学相似度或距离度量)。 通过这种定量分析,模型的验证趋于更加直接。 相反,在定性数据分析中必须使用更复杂,更聪明的转换和验证指标,在这种情况下,很难确定“正确”和“错误”的明确值(例如,“真阳性”与“假阳性”),尽管逻辑回归技术当有二进制输出时(例如,该社交媒体用户是否更有可能投票给政治候选人A或B?),就足够了。 但是,当定性数据中包含多种含义和理解程度时,执行二进制测试(假设A与假设B [或零假设])的标准统计测试将不起作用。需要测试)。 链接分析是一种用于挖掘定性数据的可能方法:该技术可用于发现和探索复杂知识网络中多个节点之间的关联。 链接分析不需要定量数据-实际上,它取决于离散化的数据而不是连续的数字数据-在这种情况下,定性数据具有优势。
4.因此,定性数据集会消失吗,尤其是如果我们只是将其转换并定量化(也许是自动)成定量数据时?
定性数据不会消失。 实际上,在这个大数据时代,该数据类型的增长速度可能比我们正在收集的任何其他类型的数据快。 但是,我们一定会看到定性数据的更多量化(我们已经看到了),以便能够利用丰富的分析算法和技术集,这些算法和技术现在正以惊人的速度用于定量数据。 但是,在定性数据定性后,定性数据不再是图片的一部分是不正确的。 它们仍然是我们“数据故事”和数据资产中最重要的部分之一。 我们不能逃避它,也不应该尝试。 但是,我们应该尝试充分利用它,创建最佳模型以从中提取含义和见解,并继续寻找更聪明的算法,使我们能够量化所收集的大量定性数据。 简而言之,我们需要“大规模”收集,处理和挖掘大数据,其中包括定量和定性数据。
总而言之,当我们可以无缝地汇总,分析和挖掘定量和定性数据集合时,我们可以避免错误的思维,并为数据科学活动赋予更深的上下文含义。 如果我们可以在一个共享平台上使用一组共享的分析工具,在一个聚合的“多语言”数据环境中做到这一点,则最容易实现。 现在,我们看到了这种融合在大数据生态系统中的出现,特别是在MapR的新融合数据平台中 。 使用Hadoop在分布式数据体系结构中存储异构数据的能力,使用Apache Drill在整个数据湖中查询数据(数据库,文档,文本,JSON数据对象等)的能力以及在以下位置挖掘这些数据的能力Apache Spark进行实时存储和实时存储,这一切使我们离认知分析的承诺又近了一步:在正确的时间,正确的上下文中,在所有定量和定性数据收集中提出正确的问题。
无论您从事何种行业或环境,只要可以从中提取数据,就可以理解。 这既是定性的还是定量的正确思维方式。
翻译自: https://www.javacodegeeks.com/2016/01/qualitative-data-context-gives-meaning-big-data.html