生信统计学1 - T检验和Z检验

假设检验通过统计学手段判断样本数据是否支持某个假设,从而基于数据作出推断。

1. T检验(T-test)

T检验适用于比较2个样本平均值之间是否存在显著差异

1.1 T检验原理

假设2个样本有相同的分布,如果2个样本平均值差异显著,则表明两者可能为不同分布。

原假设(H0):2个样本平均值无显著差异,即 μ1=μ2。

备择假设(H1):2个样本平均值有显著差异,即 μ1≠μ2 。

1.2 T检验公式

对于独立样本t检验(又称为双样本t检验):

分子表示2个样本的平均值之差,分母表示2个样本各自方差平方比上样本数量的算术平方根。

从下图公式可以看出,T检验需要计算t值,通过其判断2个样本平均值是否存在显著差异
T检验公式

结论:

t值通过查找t分布表可得到p值,p值越小,越说明样本间差异显著;如果p值小于显著性水平阈值(通常为0.05),则拒绝原假设H0

1.3 T检验适用范围:

T检验计算简单,适用于正态分布的样本数据,并要求比较样本之间方差大小相差较小;但当样本分布为非正态分布且样本数量较少,T检验一般不太适用

在实际应用中,可用于比较实验组和控制组的2个样本的均值差异是否显著。

1.4 python实现实验组数据和对照组数据的T检验

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

# 生成2个不同均值的样本数据(实验 VS 对照)
np.random.seed(123)
# 平均值为10,标准差为3,数据数量100个
experiment_data = np.random.normal(10, 3, 100)  
 # 平均值为15,标准差为4,数据数量100个
control_data = np.random.normal(15, 4, 100) 

# t-test 两组数据的均值
t_stat, p_value = stats.ttest_ind(experiment_data, control_data)
print(f"T-value: {t_stat}, P-value: {p_value}")
# T-value: -9.353755620233024, P-value: 1.8665012625102836e-17

####### 核密度图 ########
# 设置图大小
plt.figure(figsize=(10, 6))
sns.kdeplot(experiment_data, label="experiment data (Mean=10)", shade=True)
sns.kdeplot(control_data, label="control data (Mean=15)", shade=True)
plt.legend()
plt.show()

####### 箱线图 #######
sns.boxplot(data=[experiment_data, control_data])
plt.xticks([0, 1], ["experiment data", "control data"])

plt.suptitle("T-Test between experiment and control", fontsize=12)
plt.tight_layout()
plt.show()

结论:

t值(T-value: -9.353755620233024),p值(P-value: 1.8665012625102836e-17)小于0.05,拒绝原假设H0即2个样本数据集存在显著差异

核密度图

核密度图曲线峰值为2个数据集的平均值,反应了2个数据集的数据分布情况。
核密度图

箱线图

箱线图上横线和下横线分别表示上四分位数、下四分位数,箱子中间横线表示平均值,原点表示异常值,可直观看出2个数据集在均值上的差异。

箱线图

2. Z检验(Z-test)

Z检验主要用于样本数量较多已知总体的标准差的情况,可检验单个样本与总体样本平均值之间的差异,也可以比较2个样本之间平均值的差异。

2.1 Z检验原理

原假设(H0):样本均值与总体均值无显著差异,或两个样本均值无显著差异
备择假设(H1):样本均值与总体均值有显著差异,或两个样本均值有显著差异

2.2 Z检验公式

Z检验公式

|Z|值与P值结论

Z值与p值结论图

2.3 Z检验适用范围:

样本较大、已知标准差,并不适用于小样本数据。

2.4 python实现单个样本和总体样本的Z检验

import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from scipy import stats


# 已知总体均值和方差数据
# 假设总体均值为15,总体SD为3.5,样本数量100个,进行单样本z检验
total_mean = 15
total_sd = 3.5
n = 100

np.random.seed(123)
# 从正态分布总体数据中获取样本数据
sample = np.random.normal(total_mean , total_sd , n)

# 求样本均值和标准差
sample_mean = np.mean(sample)
sample_std = np.std(sample, ddof=1)

# 计算公式
p_value = 2 * (1 - stats.norm.cdf(abs((sample_mean - total_mean) / (total_sd / np.sqrt(n)))))

print(f"Z-value: {z_stat}, P-value: {p_value}")
# z_value: -3.9513638778274593, P-value: 7.770706713938758e-05

plt.figure(figsize=(10, 6))

# 核密度图
sns.kdeplot(sample, label="Sample Distribution", shade=True)

# 添加总体均值和假设均值的竖线
plt.axvline(np.mean(sample), linestyle='--', label='Sample Mean')
plt.axvline(total_mean, color='red', linestyle='--', label='Total sample Mean')

plt.legend()
plt.title("Z-Test")
plt.tight_layout()
plt.show()

Z检验结论:
通过z统计量和p值,我们可以判断样本均值与假设均值是否有显著差异。如果p值小于0.05,则拒绝原假设;上述z-value绝对值2.68且大于p-value小于0.01, 单样本与总体均值差异非常显著

<think>嗯,用户想要查找统计学常用公式的汇总。首先,我需要回忆统计学中的核心概念和对应的公式,确保覆盖描述统计、概率分布、假设检验、回归分析等部分。 首先,描述统计部分,平均数、方差、标准差这些基础公式是必须的。然后概率分布,比如正态分布、二项分布的公式。假设检验部分,Z检验、t检验公式,还有p值的概念。回归分析中的线性回归方程、相关系数R²这些也不能少。 接下来要考虑用户的潜在需求。他们可能是学或者刚入行的数据分析师,需要这些公式来复习或应用在实际工作中。因此,除了列出公式,最好给出每个公式的简要说明,帮助理解应用场景。 还要注意LaTeX格式的正确性,根据用户的要求,行内公式用$...$,独立公式用$$...$$。比如方差公式应该用独立公式,单独成行。同时,检查每个公式的语法是否正确,比如积分符号、上下标等。 用户还要求成相关问题,这些问题应该围绕统计学的应用、公式推导、实际例子等方面。比如如何应用中心极限定理,或者假设检验的步骤,这样可以帮助用户深化理解。 另外,引用标识需要自然地添加在引用的段落末尾。比如在提到中心极限定理时,加上引用标记[^1],但用户提供的示例中没有具体的引用来源,可能需要假设存在相关的参考文献,或者提示用户引用需要补充。 最后,保持回答结构清晰,分点列出,每个部分有明确的标题,如描述统计、概率分布等,方便用户快速查找。同时,语言要简洁明了,避免过于专业的术语,必要时给出解释,确保用户容易理解。</think># 统计学常用公式汇总 ## 一、描述统计 1. **样本均值**:$$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$$ 2. **样本方差**:$$s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$$ 3. **标准差**:$$s = \sqrt{s^2}$$ 4. **协方差**:$$\text{Cov}(X,Y) = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})$$ 5. **皮尔逊相关系数**:$$r = \frac{\text{Cov}(X,Y)}{s_X s_Y}$$ [^1] ## 二、概率分布 1. **正态分布**:$$f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$ 2. **二项分布**:$$P(X=k) = C(n,k) p^k (1-p)^{n-k}$$ 3. **泊松分布**:$$P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!}$$ ## 三、假设检验 1. **Z检验统计量**:$$Z = \frac{\bar{x} - \mu}{\sigma/\sqrt{n}}$$ 2. **t检验统计量**:$$t = \frac{\bar{x} - \mu}{s/\sqrt{n}}$$ 3. **卡方检验统计量**:$$\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$$ ## 四、回归分析 1. **线性回归方程**:$$\hat{y} = \beta_0 + \beta_1 x$$ 2. **最小二乘法估计系数**:$$\beta_1 = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}$$ 3. **决定系数$R^2$**:$$R^2 = 1 - \frac{\text{SSE}}{\text{SST}}$$ ## 五、中心极限定理 当样本量$n$足够大时,样本均值的分布近似正态分布,均值为$\mu$,方差为$\sigma^2/n$[^1]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信与基因组学

每一份鼓励是我坚持下去动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值