数据与统计基础:从概率到机器学习的关键概念
1. 条件概率与期望值计算
条件概率指的是在事件 E2 发生的情况下,事件 E1 发生的可能性。而期望值的计算则可以通过几个例子来说明。
-
抛硬币场景
- 若抛一枚均匀硬币,无论正反都赚 1 美元,抛 100 次,那么期望值(实际上是确定值)就是 100 美元。
- 若正面赚 1 美元,反面赚 0 美元,抛 100 次。正式推导期望值 E 的公式为:E = 100
[1 * 0.5 + 0 * 0.5] = 50 美元。这里 1 * 0.5 + 0 * 0.5 是每次抛硬币的期望收益,乘以 100 就是 100 次抛硬币后的期望收益。
- 若正面赚 3 美元,反面亏 1.5 美元,抛 100 次,期望值 E = 100
[3 * 0.5 - 1.5 * 0.5] = 150 美元。
-
通用公式
:设 P = {p1, …, pn} 是一个概率分布(概率值非负且总和为 1),R = {R1, …, Rn} 是一组奖励,奖励 Ri 以概率 pi 获得。那么 N 次试验后的期望值 E 为:E = N * [SUM pi
Ri]。
-
掷骰子场景
*
- 单个均匀骰子,每个面出现的概率 p(1) = p(2) = p(3) = p(4) = p(5) = p(6) = 1/6。若掷出 1、2、3、4、5、6 对应的收益分别为 {3, 0, -1, 2, 4, -1},100 次试验后的期望收益 E = 100 * [3 + 0 + -1 + 2 + 4 + -1]/6 = 50 美元。
- 两个均匀骰子,各点数出现的概率如下表:
|点数|概率|
| ---- | ---- |
|2|1/36|
|3|2/36|
|…|…|
|12|1/36|
2. 随机变量
随机变量是一个可以有多个值的变量,每个值都有对应的发生概率。
-
离散随机变量
:可能值的列表是有限的或可数无限的(如整数集)。例如,抛一个均匀骰子,随机变量 X 的值是 {1, 2, 3, 4, 5, 6},每个值出现的概率都是 1/6。两个均匀骰子,随机变量 X 的值可以是 {2, 3, 4, …, 12}。
-
连续随机变量
:其值可以是一个区间内的任意数,可能有无穷多个值。例如,完成一项任务所需的时间就是一个连续随机变量。连续随机变量的概率分布用连续函数表示,曲线下的面积(有时通过积分计算)等于 1。
3. 常见概率分布
常见的概率分布有:
-
高斯分布
:以卡尔·弗里德里希·高斯命名,有时也称为正态分布或钟形曲线。智商分数的分布类似于高斯分布。
-
泊松分布
:用于计算在特定时间段内某事件发生的次数。例如,道路上某一点的交通频率、根据温度每 5 华氏度增量去公共泳池的人数都遵循泊松分布。
-
卡方分布
-
二项分布
4. 统计学基本概念
- 均值 :一组数的均值是这些值的平均值。例如,集合 {-10, 35, 75, 100} 的均值 μ = (-10 + 35 + 75 + 100)/4 = 50;集合 {2, 2, 2, 2} 的均值 μ = (2 + 2 + 2 + 2)/4 = 2。均值对异常值敏感,如集合 {1, 2, 3, 4} 的均值是 2.5,而集合 {1, 2, 3, 4, 1000} 的均值是 202。
- 中位数 :将一组数按升序或降序排列后,中位数是中间的值。若集合元素个数为偶数,则取中间两个数的平均值。例如,集合 {-10, 35, 75, 100} 的中位数是 55;集合 {2, 2, 2, 2} 的中位数是 2。中位数对异常值的敏感度远低于均值,如集合 {1, 2, 3, 4} 的中位数是 2.5,集合 {1, 2, 3, 4, 1000} 的中位数是 3。
- 众数 :一组数中出现频率最高的值。可以有多个众数,有两个众数的集合称为双峰集合,有多个众数的集合称为多峰集合。例如,集合 {2, 2, 2, 2} 的众数是 2;集合 {2, 4, 5, 5, 6, 8} 的众数是 5;集合 {2, 2, 4, 5, 5, 6, 8} 的众数是 2 和 5。若集合中所有数的频率相同且不同,众数可能无意义,可将数字划分为子集,选择最大子集,如集合 {1, 2, 15, 16, 17, 25, 35, 50} 可划分为 {1, 2},{15, 16, 17},{25},{35},{50},最大子集是 {15, 16, 17},可选择 16 作为众数。
-
方差和标准差
- 方差是集合 X 中各数与均值 μ 之差的平方和的平均值,公式为:variance = [SUM (xi - μ)**2 ] / n。例如,集合 {-10, 35, 75, 100} 的均值是 50,方差为 1737;集合 {2, 2, 2, 2} 的均值是 2,方差为 0。
- 标准差 std 是方差的平方根。集合 {-10, 35, 75, 100} 的标准差 std = sqrt(1737) = 41.677;集合 {2, 2, 2, 2} 的标准差 std = sqrt(0) = 0。
5. 总体、样本和总体方差
- 总体 :指给定群体中的所有实体,如一个国家的人口、美国 65 岁以上的人群、大学一年级学生的数量等。
- 样本 :是总体的一个(小得多的)子集。统计量通常基于样本计算。
-
抽样技术
:
- 分层抽样
- 整群抽样
- 配额抽样
- 总体方差 :总体方差通过样本方差乘以 n/(n - 1) 计算,即 population variance = [n/(n - 1)]*variance。
6. 切比雪夫不等式
切比雪夫不等式提供了一种简单的方法来确定数据在 k 个标准差内的最小百分比。对于任何大于 1 的正整数 k,样本中在 k 个标准差内的数据量至少为 1 - 1/k**2。例如,当 k = 2 时,至少 3/4 的数据必须在 2 个标准差内。该不等式已被数学证明。
7. p 值
- 零假设 :表示因变量(如 y)和自变量(如 x)之间没有相关性。
- p 值 :用于拒绝零假设,如果 p 值足够小(< 0.005),则表示具有更高的显著性。p 值的阈值通常为 1% 或 5%。p 值没有直接的计算公式,介于 0 和 1 之间,通过 p 值表或电子表格/统计软件计算。
8. 函数的矩(可选)
在概率分布中,前四个矩的定义如下:
1. 均值是一阶中心矩。
2. 方差是二阶中心矩。
3. 偏度(后面讨论)是三阶中心矩。
4. 峰度(后面讨论)是四阶中心矩。
9. 偏度
偏度是衡量概率分布不对称性的指标。高斯分布是对称的,偏度值接近 0。
-
左偏分布
:长尾在曲线左侧,关系为:mean < median < mode。
-
右偏分布
:长尾在曲线右侧,关系为:mode < median < mean。
若需要,可使用以下技术将偏态数据转换为正态分布数据集:
- 指数变换
- 对数变换
- 幂变换
10. 峰度
峰度与概率分布的偏度相关,二者都用于评估概率分布的不对称性。单变量分布的峰度等于 3。标准化值在均值的一个标准差内对峰度影响可忽略不计,超出一个标准差的值(包括异常值)会影响峰度。可通过在线搜索了解更多关于中峰、尖峰和低峰等“超额峰度”的概念。
11. 数据与统计相关概念
- 数据样本 :统计通常涉及数据样本,目标是找到能很好代表总体的平衡样本。虽然很难实现,但小样本也可能得到高精度结果。例如,美国的哈里斯民意调查,样本量仅 4000 人,但能在 3.5% 的误差范围内反映超过 3.25 亿人口的政治趋势。
- 样本特征 :每个样本有均值和方差,不一定等于总体的均值和方差,但样本均值和方差的期望值分别等于总体的均值和方差。
12. 中心极限定理
从总体中抽取一组样本 {S1, S3, …, Sn} 并计算其均值 {m1, m2, …, mn},这些均值的分布可以用高斯分布近似。随着样本数量的增加,近似效果更准确。
13. 相关性与因果关系
- 特征重要性 :数据集中有些特征(列)的值更具显著性,有些特征只提供额外信息。例如,泰坦尼克号乘客名单中的姓名不太可能影响乘客的存活率,而乘客的性别可能是一个重要因素。
- 特征相关性 :两个特征值变化的程度称为相关性,取值在 -1 到 1 之间。完全相关的特征相关性为 1,不相关的特征相关性为 0。若一个特征值增加时另一个特征值减少,相关性接近 -1。
- 特征因果关系 :两个特征之间的因果关系意味着一个特征的值可以用来计算另一个特征的值(有一定误差范围)。机器学习模型可以提供相关性,但不能提供因果关系。
14. 统计推断
统计推断是根据从总体样本中得出的统计数据对总体进行推断的过程。推断的有效性和可靠性取决于随机抽样以减少偏差。可以计算各种指标来评估在特定数据集上训练的模型的有效性。
15. 偏差 - 方差权衡
- 偏差 :机器学习中的偏差可能是由于学习算法中的错误假设导致的。高偏差可能导致算法错过特征和目标输出之间的相关关系(欠拟合)。预测偏差可能由于“噪声”数据、不完整的特征集或有偏差的训练样本而产生。偏差衡量模型预测值与正确值的偏离程度。
- 方差 :机器学习中的方差是偏离均值的平方的期望值。高方差可能导致算法对训练数据中的随机噪声进行建模,而不是预期的输出(过拟合)。
- 权衡关系 :增加模型的参数会增加其复杂性,增加方差,减少偏差。处理偏差和方差就是处理欠拟合和过拟合问题。
数据与统计基础:从概率到机器学习的关键概念
16. 数据与统计的挑战与应用
在实际处理数据和运用统计方法时,会面临诸多挑战,同时也有广泛的应用场景。
-
样本代表性挑战 :获取能准确代表总体的样本并非易事。例如在市场调研中,若样本选取不当,可能导致对整个市场需求的误判。要解决样本代表性问题,可采用前面提到的分层抽样、整群抽样和配额抽样等方法。具体操作步骤如下:
- 分层抽样 :先将总体按照某些特征(如年龄、性别、地域等)分成不同的层次,然后从每个层次中独立地进行抽样。例如,要调查一个城市居民的消费习惯,可按收入水平将居民分为高、中、低三个层次,再从每个层次中抽取一定数量的样本。
- 整群抽样 :将总体划分为若干个群,然后随机抽取部分群作为样本。比如,要调查某学校学生的学习情况,可将每个班级看作一个群,随机抽取几个班级进行调查。
- 配额抽样 :根据总体的某些特征设定配额,然后在每个配额内进行非随机抽样。例如,在调查某产品的用户满意度时,设定男性和女性的配额,然后在每个配额内选取一定数量的用户进行调查。
-
模型评估挑战 :在构建机器学习模型时,如何准确评估模型的性能是一个关键问题。偏差 - 方差权衡的概念在此就显得尤为重要。为了平衡偏差和方差,可采用交叉验证的方法。具体步骤如下:
- 将数据集分为训练集和测试集。
- 对训练集进行多次划分,每次划分出一个验证集。
- 在每次划分中,使用训练集训练模型,然后在验证集上评估模型的性能。
- 综合多次评估结果,选择性能最优的模型。
-
实际应用场景 :数据和统计在各个领域都有广泛的应用。例如在金融领域,可通过分析历史数据来预测股票价格的走势;在医疗领域,可利用统计方法分析疾病的发病率和治疗效果等。
17. 总结与展望
数据和统计是机器学习和自然语言处理等领域的重要基础。通过对条件概率、随机变量、概率分布、统计学基本概念等的学习,我们能够更好地理解和处理数据,构建更有效的模型。
在未来,随着数据量的不断增加和计算能力的不断提升,数据和统计的应用将更加广泛和深入。同时,新的统计方法和机器学习算法也将不断涌现,为解决各种复杂问题提供更强大的工具。
为了更好地应对未来的挑战,我们需要不断学习和掌握新的知识和技能,提高自己的数据处理和分析能力。以下是一些学习和提升的建议:
-
阅读专业书籍和论文
:深入学习数据和统计的理论知识,了解最新的研究成果。
-
参加培训课程和研讨会
:与同行交流经验,学习实际应用中的技巧和方法。
-
实践项目
:通过实际项目的锻炼,提高自己的动手能力和解决问题的能力。
总之,数据和统计是一个充满挑战和机遇的领域,我们应该积极探索和学习,为推动相关领域的发展贡献自己的力量。
18. 相关概念的关系图
为了更清晰地展示各个概念之间的关系,下面给出一个 mermaid 格式的流程图:
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;
A([数据与统计]):::startend --> B(概率相关):::process
A --> C(随机变量):::process
A --> D(统计学概念):::process
A --> E(实际应用):::process
B --> B1(条件概率):::process
B --> B2(期望值计算):::process
B --> B3(概率分布):::process
B3 --> B31(高斯分布):::process
B3 --> B32(泊松分布):::process
B3 --> B33(卡方分布):::process
B3 --> B34(二项分布):::process
C --> C1(离散随机变量):::process
C --> C2(连续随机变量):::process
D --> D1(均值):::process
D --> D2(中位数):::process
D --> D3(众数):::process
D --> D4(方差和标准差):::process
D --> D5(偏度):::process
D --> D6(峰度):::process
E --> E1(数据样本):::process
E --> E2(中心极限定理):::process
E --> E3(相关性与因果关系):::process
E --> E4(统计推断):::process
E --> E5(偏差 - 方差权衡):::process
这个流程图展示了数据与统计领域中各个关键概念之间的关系,从概率相关的基础概念,到随机变量的分类,再到统计学的各种指标,最后到实际应用中的各个方面,形成了一个完整的知识体系。
19. 重要概念对比表格
为了方便对比一些重要概念,下面给出一个表格:
|概念|定义|特点|应用场景|
| ---- | ---- | ---- | ---- |
|均值|一组数的平均值|对异常值敏感|数据的总体平均水平评估|
|中位数|排序后中间的值|对异常值不敏感|存在异常值时的数据中心位置评估|
|众数|出现频率最高的值|可能有多个众数|数据集中最常见的值分析|
|方差|各数与均值之差的平方和的平均值|衡量数据的离散程度|数据稳定性评估|
|标准差|方差的平方根|与数据同单位,更直观|数据离散程度的直观表示|
|偏度|衡量概率分布不对称性|左偏或右偏|数据分布形态分析|
|峰度|评估概率分布的尾部特征|与偏度相关|数据分布的尖峰或平峰特征分析|
|偏差|模型预测值与正确值的偏离程度|高偏差可能导致欠拟合|机器学习模型性能评估|
|方差|偏离均值的平方的期望值|高方差可能导致过拟合|机器学习模型性能评估|
通过这个表格,可以更清晰地看到各个概念的区别和联系,有助于在实际应用中正确选择和使用这些概念。
20. 实际案例分析
下面通过一个实际案例来进一步说明这些概念的应用。假设我们要分析一个电商平台上某类商品的销售数据。
- 数据收集 :收集该类商品在一段时间内的销售记录,包括销售数量、销售价格、购买用户的年龄、性别等信息。
- 数据预处理 :对收集到的数据进行清洗,去除缺失值和异常值。然后计算销售数量的均值、中位数和众数,以了解销售的总体水平和常见销售情况。例如,若均值大于中位数,可能说明存在一些高销量的异常情况。
- 概率分布分析 :分析销售数量是否符合某种概率分布,如高斯分布或泊松分布。若符合泊松分布,可预测在未来一段时间内不同销售数量出现的概率。
- 相关性分析 :分析销售价格与销售数量之间的相关性。如果相关性接近 -1,说明价格越高,销售数量越低;若接近 1,则说明价格和销售数量呈正相关。
- 模型构建与评估 :根据分析结果构建机器学习模型,预测未来的销售情况。在构建模型过程中,要注意偏差 - 方差权衡,避免欠拟合或过拟合。
通过这个案例可以看到,数据和统计的各个概念在实际应用中是相互关联、相互配合的,只有综合运用这些概念,才能更好地解决实际问题。
超级会员免费看

被折叠的 条评论
为什么被折叠?



