数据科学与统计学:差异辨析及变量评估方法
1 数据科学与统计学的差异探讨
1.1 不同机构和平台对数据科学的定义
- IJDSA :其核心是首次发表原创的数据科学和大数据内容,但任务要点和关键词未涉及四步流程的任何内容,也未提及核心统计。由此判定,IJDSA的数据科学与统计学不同。
- Kaggle :2016年,Kaggle将数据科学定义为“一个新兴领域,致力于分析和处理数据以获取见解并构建数据产品,它融合了从计算机科学到数学再到艺术等多种技能”。不过,该定义未恰当提及统计学,虽有对数据的分析以获取见解,但只是修辞性的统计。因此,Kaggle的数据科学与统计学不同。
- KDnuggets(KDN) :将数据科学定义为“从大量非结构化数据中提取知识,这是数据挖掘和预测分析领域的延续,也称为知识发现和数据挖掘”。此定义将数据科学局限于非结构化大数据,范围较窄,未抓住四步流程和核心统计的本质。所以,KDN的数据科学与统计学不同。
- 加州大学伯克利分校(UC Berkeley) :其定义显示出对数据科学基本特征的不了解,且在定义中同时提及数据科学家和统计学家,暗示二者不同。故而,UC Berkeley的数据科学与统计学不同。
截至目前,在统计的数据科学与统计学相同或相似的统计中,比例为8/19(42.11%)。
1.2 假设检验
进行经典显著性检验来评估假设:
- 原假设H0
超级会员免费看
订阅专栏 解锁全文
759

被折叠的 条评论
为什么被折叠?



