机器学习与深度学习17-概率论和统计学02

最新推荐文章于 2025-12-02 20:26:37 发布

原创最新推荐文章于 2025-12-02 20:26:37 发布 · 795 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #深度学习 #概率论

机器学习与深度学习专栏收录该内容

23 篇文章

订阅专栏

前文回顾

上一篇文章地址：链接

5.方差和标准差

方差（variance）和标准差（standard deviation）是两种常用的统计量，用于衡量数据的分散程度。方差是指数据点与其均值之间的偏离程度的平均值。它通过计算每个数据点与均值的差值的平方，然后取平均得到。方差的公式如下： $\frac{\sum_{i = 1}^{n}(x_{i}-\bar{x})^{2}}{n}$
其中， $x_{i}$ 是第i个数据点， $\bar{x}$ 是所有数据点的均值，n是数据点的总数
标准差是方差的平方根，它表示数据点与均值之间的差异程度。标准差通常用于评估数据的离散程度，数值越大表示数据越分散，数值越小表示数据越接近均值。标准差的公式如下：
$\sqrt{方差}$
下面通过一个具体案例来说明方差和标准差的计算过程。假设我们有一组数据：2, 4, 6, 8, 10。首先计算均值： $\bar{x} = \frac{2 + 4 + 6 + 8 + 10}{5} = 6$
然后计算方差，即每个数据点与均值之差的平方的平均：
$\frac{(2 - 6)^{2} + (4 - 6)^{2} + (6 - 6)^{2} + (8 - 6)^{2} + (10 - 6)^{2}}{5} = 8$
最后计算标准差，即方差的平方根： $\sqrt{8} \approx 2.83$
因此，这组数据的方差为8，标准差为2.83。方差和标准差的数值表示数据的分散程度，较大的数值意味着数据点相对于均值的离散程度更高

6.正态分布

正态分布（Normal Distribution），也称为高斯分布（Gaussian Distribution），是统计学中最常见的连续概率概率分布之一。它在自然界和许多实际应用中都具有重要性
正态分布的特点如下：

对称性：正态分布呈现对称的钟形曲线，均值位于分布的中心，两侧的尾部逐渐趋近于零。
唯一标识：正态分布由两个参数完全确定，即均值（μ）和标准差（σ），其中均值决定了分布的位置，标准差决定了分布的形状。
中心极限定理：正态分布是许多随机现象的结果，根据中心极限定理，当独立随机变量求和时，其总和的分布趋向于正态分布。
68 - 95 - 99.7规则：约有68%的数据落在均值的一个标准差范围内，约有95%的数据落在均值的两个标准差范围内，约有99.7%的数据落在均值的三个标准差范围内。

正态分布在实际应用中具有重要性的原因如下：

数据建模：许多实际观测的数据可以近似地服从正态分布。因此，正态分布可用于对这些数据进行建模和分析
统计推断：许多经典的统计推断方法，如假设检验和置信区间估计，基于正态分布的性质进行计算
预测和控制：正态分布在预测和控制问题中起着重要作用。例如，在质量控制中，正态分布被用来设置规范限和判断过程是否稳定
自然现象：许多自然现象和人类行为都可以用正态分布来描述，如身高、体重、IQ分数等

正态分布的重要性在于其具有广泛的适用性和数学性质的良好性质。它在统计学和各个领域的科学研究中扮演着重要角色，并且为我们提供了一种常见的模型来理解数据分布和进行概率推断，以下是一个实际开源的正态分布案例，使用了来自 Kaggle 的“House Prices: Advanced Regression Techniques”数据集中的房屋销售价格数据[208500, 181500, 223500, 140000, 250000, 143000, 307000, 200000, 129900, 118000, 129500, 345000, 144000, 279500, 157000, 132000, 149000, 90000, 159000, 139000]这些数据代表不同房屋的销售价格（以美元为单位）。我们可以对这些数据进行统计分析，计算均值和标准差，并通过绘制直方图或概率密度函数图形来探索它们是否近似于正态分布。可以使用Python的数据分析库（例如matplotlib和numpy）来绘制给定数据的直方图。以下是使用Python生成直方图的示例代码：

import matplotlib.pyplot as plt
import numpy as np

data = [208500, 181500, 223500, 140000, 250000, 143000, 307000, 200000, 129900, 118000, 129500, 345000, 144000, 279500, 157000, 132000, 149000, 90000, 159000, 139000]

# Set the bins and number of intervals for the histogram
bin_edges = np.linspace(min(data), max(data), num=10)

# Plot the histogram
plt.hist(data, bins=bin_edges, edgecolor='black')

# Add labels and title
plt.xlabel('House Sale Prices')
plt.ylabel('Frequency')
plt.title('Distribution of House Sale Prices')

# Show the plot
plt.show()

运行此代码将生成一个直方图，显示了房屋销售价格的分布情况。横轴表示价格区间，纵轴表示频数或计数

在这里插入图片描述

7.假设检验

假设检验是统计学中的一种方法，用于验证关于总体参数或数据集特征的假设。它提供了一种科学的方式来判断样本数据是否支持或反驳某个假设，在使用假设检验时，通常有两个假设：零假设（null hypothesis）和备择假设（alternative hypothesis）。零假设表示我们要进行检验的假设，而备择假设则是对零假设的对立或替代假设，假设检验的步骤如下：

建立假设：明确零假设和备择假设
选择显著性水平：确定接受或拒绝零假设的临界值
收集数据：收集与问题相关的数据
计算统计量：根据数据计算出适当的统计量
计算P值：根据统计量计算出P值，即给定观察到的数据情况下，零假设成立的概率
做出决策：将P值与显著性水平进行比较，并基于P值做出接受或拒绝零假设的决策
得出结论：根据决策结果得出关于零假设的结论

一个实际的案例是检验一种新药物是否有效。假设我们想要测试新药物对某种疾病的疗效，零假设为“新药物无效”，备择假设为“新药物有效”。我们进行了一项随机对照试验，将患者分为两组，其中一组接受新药物治疗，另一组接受安慰剂。收集得到的数据如下：

新药物组平均疗效：82%
安慰剂组平均疗效：75%

现在我们需要使用假设检验来验证该新药物是否有效。我们可以采用配对样本t检验，计算出适当的统计量，并计算P值。根据P值与预先确定的显著性水平进行比较，如果P值小于显著性水平（通常为0.05），则我们可以拒绝零假设，得出结论认为新药物是有效的。否则，我们无法拒绝零假设，即没有足够的证据支持新药物的疗效，但是请注意，实际的假设检验涉及更复杂的统计方法和假设情景，但这个案例提供了一个简化的示例来说明假设检验的概念和使用方法

8.统计抽样和抽样分布

统计抽样是指从一个总体中选择一部分个体作为样本的过程。通过对样本进行研究和分析，我们可以推断出有关总体的特征、参数或关系的信息，抽样分布是指在重复从总体中抽取样本，并计算某个统计量（例如均值、比例等）的情况下，该统计量的分布。抽样分布可以帮助我们了解样本统计量的变异性以及与总体参数之间的关系，中心极限定理（Central Limit Theorem, CLT）是统计学中的一个重要理论。它指出，当从任何总体中抽取足够大的样本时，样本平均值的分布会近似于正态分布，无论总体分布形态如何，具体而言，中心极限定理包含以下关键观点：