数据科学实验及其结果评估
1. 实验的重要性
实验在数据科学中至关重要,它不仅仅用于检验假设。本质上,实验是应用科学方法的手段,是一种通过实证方法客观获取精确知识以收集和处理信息的途径。同时,它也是验证理论的关键方式,是区分科学与哲学、数据科学与特定领域“专家”臆测的最具体依据。
实验可能充满挑战,其结果也并非总是符合我们的预期或直觉。但它们总能带来深刻的见解,逐步提升我们对事物的理解,尤其在复杂场景或我们缺乏足够领域知识的情况下。
从更实际的角度来看,实验能将我们所掌握或构建的概念转化为事实,或揭示其为一时的判断失误。这不仅让我们对自己的认知更有信心,还使数据分析更严谨、更客观。很多人对统计结果失去信心是有原因的,因为一些统计结论过于依赖假设,在现实世界中缺乏价值。一些伪科学家利用统计工具只是为了传播他们的错误观念,而非进行真正的科学研究。不过,统计学中也有一些对数据科学有用的部分,比如假设检验,而实验与这些统计检验相辅相成。
2. 如何构建实验
2.1 实验的定义
数据科学中的实验通常是在计算机上进行的一系列模拟,常见于 Jupyter 等环境(http://bit.ly/2oriE8B ),当然也可以从命令行进行。使用的环境并非关键,但如果习惯使用笔记本环境,那是不错的选择,因为这种环境可以包含描述性文本、图形,还能将内容导出为 PDF 或 HTML 文件。
2.2 实验的构建步骤
- 简单问题与假设明确的情况 :如果问题简单且假设清晰,实验将采用统计检验或一系列统计检验的形式(若有多个备择假设)。常用的统计检验有
超级会员免费看
订阅专栏 解锁全文
28万+

被折叠的 条评论
为什么被折叠?



