统计学、数据挖掘、数据分析与数据科学:概念与应用解析
1. 统计学的起源与发展
在19世纪初,统计学有了数据收集和分类的含义。1791年,苏格兰政治家约翰·辛克莱爵士(Sir John Sinclair)在其《苏格兰统计账户》一书中将该词引入英语。统计学诞生的根本目的是为政府和中央行政组织收集各州和地方的人口普查数据。
1.1 频率学派统计学
约翰·格朗特(John Graunt)是最早的人口统计学家和重要统计学家之一。1662年,他在《死亡率账单》中发表了自己的观察结果,这项工作常被视为描述性统计的首个实例。他用几张表格呈现了大量数据,便于理解,这种技术如今被广泛称为描述性统计。
描述性统计的基本性质是计数。格朗特从所有教区登记册中统计死亡人数和死于瘟疫的人数。由于统计数字有时过大难以跟踪,他还使用比例而非实际数字进行简化。例如,1625年有51,758人死亡,其中35,417人死于瘟疫,他简化表述为“我们发现瘟疫死亡人数与总死亡人数的比例为35比51,即7比10”,通常可表达为70%。这种基于样本数据比例分布或频率的推测被称为“频率学派统计学”。统计假设检验基于推理框架,假设观察到的现象是由未知但固定的过程引起的。
1.2 贝叶斯统计学
贝叶斯统计学(以托马斯·贝叶斯命名)基于与事件可能相关的条件来描述事件的概率。其核心是贝叶斯定理,它使用条件概率的概念描述相关(依赖)事件的结果概率。
贝叶斯定理的数学表达式为:
[P(A|B)=\frac{P(B|A)P(A)}{P(B)}]
其中,A和B是事件,且(P(B) \neq 0)。
- (P(A))和(P(B))
统计学与数据科学概览
超级会员免费看
订阅专栏 解锁全文
1181

被折叠的 条评论
为什么被折叠?



