第一步 概率论和统计

人工智能学习

前言

根据吴达恩的课程开始学习,线性代数,微积分,概率统计,机器学习,深度学习,目前主流框架。

第一步 概率论和统计



什么是概率(what is probability)

P ( A ) = n m ​ P(A)=\frac{n}{m}​\hspace{2em} P(A)=mnm 表示事件 A 所包含的 ​等可能基本事件的数量。
​n 表示样本空间中 ​所有可能的等基本事件的总数。
补集规则:P(A’)=1-P(A),事件A不发生的情况
概率的和:互斥事件 (disjoint event) P(A ∪ B)=P(A)+P(B) ,联合事件(joint event ) 容斥规则减去重复相加的部分P(A ∪ B)= P(A)+P(B)-P(A ∩ B)
独立性:事件相互之间独立, P ( A ∩ B ) = P ( A ) ⋅ P ( B ) P(A∩B)=P(A)\cdot P(B) P(AB)=P(A)P(B)

条件概率(conditional probability)
P(HH|1st is H)
在这里插入图片描述
等式 P(A∩B)=P(A)⋅P(B∣A)=P(B)⋅P(A∣B) 是成立,当A和B独立的情况下P(B|A)=P(B)

贝叶斯定义(bayes theorem)

在这里插入图片描述
被诊断为生病时候,生病的概率多少
P(sick)=0.01%
P(not sick)=1-0.01%= 99.99%
P(diagnosed sick|sick)=99%
P(diagnosed sick|not sick)=1%
P(sick|diagnosed sick)= ???
A: sick B:diagonsed sick
P(A|B)=???
从条件概率公式 P ( A ∩ B ) = P ( B ) ⋅ P ( A ∣ B ) ⇒ P ( A ∣ B ) = A ∩ B P ( B ) A ∩ B = P ( A ) ⋅ P ( B ∣ A ) p ( B ) = P ( A ∩ B ) + P ( A ′ ∩ B ) = P ( A ) ⋅ P ( B ∣ A ) + P ( A ′ ) ⋅ P ( B ∣ A ′ ) P(A\cap B)=P(B)\cdot P(A|B) \Rightarrow P(A|B)=\frac{A\cap B}{P(B)}\\ A\cap B =P(A)\cdot P(B|A)\\ p(B)=P(A\cap B)+P(A'\cap B)=P(A)\cdot P(B|A)+P(A')\cdot P(B|A') P(AB)=P(B)P(AB)P(AB)=P(B)ABAB=P(A)P(BA)p(B)=P(AB)+P(AB)=P(A)P(BA)+P(A)P(BA)
在这里插入图片描述
删除不重要的邮件,只关心含有lottery的邮件。
先验,事件和后验(prior,event and posterior)
P(A), E,P(A|E)
在这里插入图片描述理想的假设(naive assumption:)在C的每个类别下,X的各个维度是相互独立的,这种独立需要以类别C作为条件,是一种条件独立。
朴素贝叶斯,计算每个变量独立的。
在这里插入图片描述

概率分布:离散(probability distributions discrete)

二项分布(Binomial Distribution)
离散随机变量:只能取可数个值
连续随机变量 :整个区间上取值
二次项分布的一般离散随机变量X的PMF。+
p X ( x ) = ( n x ) p x ( 1 − p ) n − x ,     x = 0 , 1 , 2 , ⋯   , n p_X(x) = \left( \begin{array}{lcr} n\\x \end{array} \right)p^x(1-p)^{n-x},~~~x=0,1,2,\cdots ,n pX(x)=(nx)px(1p)nx,   x=0,1,2,,n
X ∼ B i n o m i a I ( n , p ) X \sim BinomiaI(n,p) XBinomiaI(n,p)
概率质量函数(PMF probability mass function)
X是离散随机变量,A为事件,S为样本空间,
A = { s ∈ S ∣ X ( s ) = x k } A=\{s\in S|X(s)=x_k\} A={sSX(s)=xk}
P X ( x k ) = P ( X = x k ) , f o r    k = 1 , 2 , 3 , 4 , 5 , . . . , P X ( x k ) 显示 X = x k 的概率 P_X(x_k)=P(X=x_k),for\; k=1,2,3,4,5,... ,P_X(x_k) 显示X=x_k的概率 PX(xk)=P(X=xk),fork=1,2,3,4,5,...,PX(xk)显示X=xk的概率
PMF的特性:
1. p X ( x ) ≥ 0 2. ∑ x p X ( x ) = 1 1.\hspace{1em} p_X (x)\geq0\\ 2.\hspace{1em} \sum\limits_{x} p_X (x)=1 1.pX(x)02.xpX(x)=1
贝努里分布(bernoulli distribution)
X ∼ B e r n o u l l i ( p ) X \sim Bernoulli(p) XBernoulli(p)
伯努利分布描述的是一个随机试验,其结果只有两种可能:‌成功‌(通常记为1)和‌失败‌(通常记为0)。
伯努利分布广泛应用于各种二元随机事件的建模
1.在每次实验中只有两种可能的结果,而且是互相对立的;
2.每次实验是独立的,与其它各次实验结果无关;
3.结果事件发生的概率在整个系列实验中保持不变,则这一系列试验称为伯努力实验.
二次项系数(Binomial Coefficient) 帕斯卡三角形 杨辉三角
k的阶乘就是对k个不同的对象进行排列的方式数。
( x + y ) n = ( n 0 ) x n y 0 + ( n 1 ) x n − 1 y 1 + ( n 2 ) x n − 2 y 2 + ⋯ + ( n n − 1 ) x 1 y n − 1 + ( n n ) x 0 y n (x+y)^n=\left( \begin{array}{lcr} n\\0 \end{array} \right)x^ny^0+\left( \begin{array}{lcr} n\\1 \end{array} \right)x^{n-1}y^1+\left( \begin{array}{lcr} n\\2 \end{array} \right)x^{n-2}y^2+\dots+\left( \begin{array}{lcr} n\\n-1 \end{array} \right)x^{1}y^{n-1}+\left( \begin{array}{lcr} n\\n \end{array} \right)x^{0}y^{n} (x+y)n=(n0)xny0+(n1)xn1y1+(n2)xn2y2++(nn1)x1yn1+(nn)x0yn
头系数计算是从n中取0个,计算方式如下: ( n 0 ) = n ! ( n − 0 ) ! 0 ! = n ! n ! 0 ! = 1 \binom{n}{0}=\frac{n!}{(n-0)!0!}=\frac{n!}{n!0!}=1 (0n)=(n0)!0!n!=n!0!n!=1
尾系数计算是从n中取n个,计算方式如下: ( n n ) = n ! ( n − n ) ! n ! = n ! 0 ! n ! = 1 \binom{n}{n}=\frac{n!}{(n-n)!n!}=\frac{n!}{0!n!}=1 (nn)=(nn)!n!n!=0!n!n!=1
中间系数验证: ( n k ) = ( n n − k ) \binom{n}{k}=\binom{n}{n-k} (kn)=(nkn)
n是阶数, k是第几项。
p X ( x ) = ( n x ) p x ( 1 − p ) n − x , x = 0 , 1 , 2 , 3 , 4 , 5 … , n X 服从二项分布 ( b i n o m i a l d i s t r i b u t i o n ) , X ∼ B i n o m i a l ( n , p ) n 和 p 的二项分布, n 是抛掷的次数, p 是正面的概率 \footnotesize{pX }\normalsize(x)=\left(\begin{array}{lcr} n\\ x \end{array} \right)p^x(1-p)^{n-x},x=0,1,2,3,4,5\dots,n \\ X服从二项分布(binomial distribution),X \sim Binomial(n,p)\\ n和p的二项分布,n是抛掷的次数,p是正面的概率 pX(x)=(nx)px(1p)nx,x=0,1,2,3,4,5,nX服从二项分布(binomialdistribution)XBinomial(n,p)np的二项分布,n是抛掷的次数,p是正面的概率

概率分布:连续(probability distributions continuous)

在这里插入图片描述
连续概率是区间。
概率密度函数(PDF probability density function)
P ( a < X < b ) = area under  f X ( x ) P(a<X<b)= \text{area under } f_X(x) P(a<X<b)=area under fX(x)

  1. 所有数值在实线上都有数值
  2. f X ( x ) ≥ 0 f_X(x)\geq 0 fX(x)0
  3. Area under  f X ( x ) = 1 \text{Area under } f_X(x)=1 Area under fX(x)=1

累计分布函数(CDF cumulative distribution function)
F X ( x ) = P ( X ≤ x ) F_X(x)=P(X\leq x) FX(x)=P(Xx)
0 ≤ F X ( x ) ≤ 1 0\leq F_X(x)\leq1 0FX(x)1
CDF最左端终点是 0 (终点可以无限接近 0 ) \text{CDF}最左端终点是0(终点可以无限接近0) CDF最左端终点是0(终点可以无限接近0
CDF最右端终点是 1 (终点可以无限接近 1 ) \text{CDF}最右端终点是1(终点可以无限接近1) CDF最右端终点是1(终点可以无限接近1
CDF一直都是单调递增,概率永远不肯能为负数 \text{CDF}一直都是单调递增,概率永远不肯能为负数 CDF一直都是单调递增,概率永远不肯能为负数

均匀分布(unifoem distribution)

CDF
一个连续随机变量可以用均匀分布来建模,如果它的所有可能值都位于一个区间内,并且具有相同的出现频率。
在这里插入图片描述
均匀分布CDF函数:
F X ( x ) = { 0 x < a x − a b − a a ≤ x < b 1 b ≤ x   \begin{equation} F_X(x)= \begin{cases} 0 \quad\quad\quad\quad\quad x<a\\ \frac{x-a}{b-a} \quad \quad \quad \quad a \leq x< b \\ 1 \quad \quad \quad \quad \quad b\leq x \ \end{cases} \end{equation} FX(x)= 0x<abaxaax<b1bx 

正态分布,高斯分布(normal distribution,gaussian distribution )
平均值 = μ 平均值 = \mu 平均值=μ
标准差 = σ 标准差 =\sigma 标准差=σ
用方程 ( e − x 2 2 , μ 是中心点, σ 是范围) (e^{-\frac{x^2}{2}},\mu是中心点,\sigma是范围) e2x2,μ是中心点,σ是范围)做拟合曲线。
正态分布方程为 1 2 π σ e − 1 2 ( x − μ σ ) 2 ⇒ X ∼ N ( μ , σ 2 ) \frac{1}{ \sqrt{2\pi}\sigma}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2} \Rightarrow X \sim \mathcal{N}(\mu,\sigma^2) 2π σ1e21(σxμ)2XN(μ,σ2)
当 μ = 0 , σ = 1 ,称为标准正太分布 当\mu = 0,\sigma =1,称为标准正太分布 μ=0σ=1,称为标准正太分布
卡方分布(CHi-squaared distribution)(没明白)
通过CDF的导数可以找到PDF。
W k = ∑ i = 1 k Z i 2 W_k=\sum\limits_{i=1}^{k}Z_i^2 Wk=i=1kZi2

分布中采样(sampling form a distribtion)

采样概率分布
通过CDF函数均匀抽样。
在这里插入图片描述
期望值(expected value)
平均数和期望值概念相同,X 是离散随机变量,PMF为 p X ( x ) = P ( X = x ) p_X(x)=P(X=x) pX(x)=P(X=x) E [ X ] = ∑ x x p X ( x ) \mathbb{E}[X]=\sum \limits_{x}xp_X(x) E[X]=xxpX(x) ,连续随机变量: ∫ − ∞ ∞ x ⋅ f X ( x ) d x \int_{-\infty}^\infty x \cdot f_X(x)dx xfX(x)dx 看作PMF或PDF的加权平均。
中位数和众数(median and mode)
中位数将样本按照顺序排列,取中间的数值,如果个数是偶数,取中间两个值均值。
众数是出现最多也是概率最大的值,众数多次出现称为多峰分布。
函数的期望值(expected value of a function)
E [ g ( x ) ] = g ( x 1 ) P X ( x 1 ) + g ( x 2 ) P X ( x 2 ) + ⋯ + g ( x n ) P X ( x n ) \mathbb{E}[g(x)]=g(x_1)P_X(x_1)+g(x_2)P_X(x_2)+\cdots+g(x_n)P_X(x_n) E[g(x)]=g(x1)PX(x1)+g(x2)PX(x2)++g(xn)PX(xn)
E [ a X + b ] = a E [ X ] + b ⇒ E [ a X ] = a [ X ] \mathbb{E}[aX+b] = a\mathbb E[X]+b \Rightarrow \mathbb E[aX] = a\mathbb[X] E[aX+b]=aE[X]+bE[aX]=a[X]
常数的期望值等于常数本身。
期望值的和(sum of expectations)
E [ X 1 + X 2 ] = E [ X 1 ] + E [ X 2 ] \mathbb{E}[X_1+X_2]=\mathbb{E}[X_1]+\mathbb{E}[X_2] E[X1+X2]=E[X1]+E[X2]
方差(variance)
V a r ( X ) = E [ ( X − E [ X ] ) 2 ] Var( X)=\mathbb E[(X-\mathbb E[X])^2] Var(X)=E[(XE[X])2]
= E [ X 2 ] − 2 E [ X ] E [ X ] + E [ X ] 2 =\mathbb E[X^2]-2\mathbb E[X]\mathbb E[X]+\mathbb E[X]^2 =E[X2]2E[X]E[X]+E[X]2
= E [ X 2 ] − 2 E [ X ] 2 + E [ X ] 2 =\mathbb E[X^2]-2\mathbb E[X]^2+\mathbb E[X]^2 =E[X2]2E[X]2+E[X]2
= E [ X 2 ] − E [ X ] 2 =\mathbb E[X^2]-\mathbb E[X]^2 =E[X2]E[X]2
总结
E [ c o n s t a n t ⋅ X ] = c o n s t a n t ⋅ E [ X ] \mathbb E[constant \cdot X] = constant \cdot \mathbb E[X] E[constantX]=constantE[X]
E [ X ] \mathbb E[X] E[X] 是一个常量
E [ c o n s t a n t ] = c o n s t a n t ⋅ E [ X ] \mathbb E[constant] = constant \cdot \mathbb E[X] E[constant]=constantE[X]
V a r ( a X + b ) = E [ ( a X + b − ( E [ a X + b ] ) ) 2 ] = E [ ( a X + b − a E [ X ] − b ) 2 ] = E [ ( a X − a E [ X ] ) 2 ] = E [ ( a ( X − E [ X ] ) ) 2 ] = E [ a 2 ( X − E [ X ] ) 2 ] = a 2 E [ ( X − E [ X ] ) 2 ] = a 2 Var ( X ) Var(aX+b)= \mathbb E[(aX+b-(\mathbb E[aX+b]))^2]\\ =\mathbb E[(aX+b-a\mathbb E[X]-b)^2]\\ =\mathbb E[(aX-a\mathbb E[X])^2]\\ =\mathbb E[(a(X-\mathbb E[X]))^2]\\ =\mathbb E[a^2(X-\mathbb E[X])^2]\\ =a^2\mathbb E[(X-\mathbb E[X])^2]=a^2\text{Var}(X) Var(aX+b)=E[(aX+b(E[aX+b]))2]=E[(aX+baE[X]b)2]=E[(aXaE[X])2]=E[(a(XE[X]))2]=E[a2(XE[X])2]=a2E[(XE[X])2]=a2Var(X)

标准差(standard deviation)
s t d ( X ) = V a r ( X ) std(X)=\sqrt{ Var(X)} std(X)=Var(X)
高斯分布的 68 95 99.7
在这里插入图片描述
高斯分布的和
一般情况 W = a X + b Y W=aX+bY W=aX+bY

i n d e p e n d e n t { X − N ( μ X , σ X 2 ) Y − N ( μ Y , σ Y 2 ) W ∼ N ( a μ x + b μ y , a 2 σ x 2 + b 2 σ y 2 ) \begin{equation} independent \begin{cases} X-N(\mu_X,\sigma^2_X)\\ Y-N(\mu_Y,\sigma^2_Y) \end{cases} \end{equation}\\ W\sim N (a\mu_x+b\mu_y,a^2\sigma^2_x+b^2\sigma^2_y) independent{XN(μX,σX2)YN(μY,σY2)WN(aμx+bμy,a2σx2+b2σy2)

标准化分布
正态分布标准化的过程(standardiza), X − μ σ        X − μ 称为中心化分布,除以 σ 标准差称为缩放 \frac{X-\mu}{\sigma}~~~~~~ X-\mu 称为中心化分布,除以\sigma标准差称为缩放 σXμ      Xμ称为中心化分布,除以σ标准差称为缩放
V a r ( c X ) = E [ ( c X ) 2 ] − E [ c X ] 2 = E [ ( c X ) 2 ] − E [ c X ] 2 = E [ c 2 X 2 ] − ( c E [ X ] ) 2 = c 2 E [ X 2 ] − c 2 E [ X ] 2 = c 2 ( E [ X 2 ] − 2 E [ X ] 2 ) = c 2 V a r ( X ) Var(cX)=\mathbb E[(cX)^2]-\mathbb E[cX]^2\\ =\mathbb E[(cX)^2]-\mathbb E[cX]^2\\ =\mathbb E[c^2X^2]-(c\mathbb E[X])^2\\ =c^2\mathbb E[X^2]-c^2\mathbb E[X]^2\\ =c^2(\mathbb E[X^2]-2\mathbb E[X]^2)=c^2Var(X) Var(cX)=E[(cX)2]E[cX]2=E[(cX)2]E[cX]2=E[c2X2](cE[X])2=c2E[X2]c2E[X]2=c2(E[X2]2E[X]2)=c2Var(X)
V a r ( X σ ) = 1 σ V a r ( X ) Var(\frac{X}{\sigma})=\frac{1}{\sigma}Var(X) Var(σX)=σ1Var(X)
s t d ( X σ = 1 σ s t d ( X ) ) = σ σ = 1 std(\frac{X}{\sigma}=\frac{1}{\sigma}std(X))=\frac{\sigma}{\sigma}=1 std(σX=σ1std(X))=σσ=1

偏度和峰度 (skewness and kurtosis)
第一矩: E [ X ] = p 1 x 1 + p 2 x 2 + ⋯ + p n x n \mathbb E[X]=p_1x_1+p_2x_2+\cdots+p_nx_n E[X]=p1x1+p2x2++pnxn
第二矩: E [ X 2 ] = p 1 x 1 2 + p 2 x 2 2 + ⋯ + p n x n 2 \mathbb E[X^2]=p_1x_1^2+p_2x_2^2+\cdots+p_nx_n^2 E[X2]=p1x12+p2x22++pnxn2
第三矩: E [ X 3 ] = p 1 x 1 3 + p 2 x 2 3 + ⋯ + p n x n 3 \mathbb E[X^3]=p_1x_1^3+p_2x_2^3+\cdots+p_nx_n^3 E[X3]=p1x13+p2x23++pnxn3
第k矩: E [ X k ] = p 1 x 1 k + p 2 x 2 k + ⋯ + p n x n k \mathbb E[X^k]=p_1x_1^k+p_2x_2^k+\cdots+p_nx_n^k E[Xk]=p1x1k+p2x2k++pnxnk
偏度( 分布的偏斜程度): s k e w n e s s = E [ ( X − μ σ ) 3 ] skewness = \mathbb E[(\frac{X-\mu}{\sigma})^3] skewness=E[(σXμ)3] 正数说明数据在Y轴右边多,负数则相反,等于0说明对称。
峰度 ( 分布中有远离中心的大数时,即使概率很小): k u r t o s i s = E [ ( X − μ σ ) 4 ] kurtosis= \mathbb E[(\frac{X-\mu}{\sigma})^4] kurtosis=E[(σXμ)4]
在这里插入图片描述

数据可视化

将左侧的数据数据表示为k%,右侧的数据表示为100-k%, q k 100 q_{\frac{k}{100}} q100k 为k%分位数
常见的分位数有 25%(first quartile-Q1),50%(median quartile-Q2),75%(third quartile-Q3)
在这里插入图片描述
箱线图(box-plots)
在这里插入图片描述
I Q R = Q 3 − Q 1 IQR=Q3-Q1 IQR=Q3Q1,上下边界不能超过最大值和最小值。
密度核估算(kernel density estimation)

在这里插入图片描述
__ 小提琴图(violin plots)__

在这里插入图片描述
QQ Plots
检查数据是否服从高斯分布
在这里插入图片描述

联合分布(joint distribution)

离散联合分布
事件独立的情况下: p X Y ( x , y ) = P ( X = x , Y = y ) = P ( x ) ⋅ P ( y ) p_{XY}(x,y)=P(X=x,Y=y)=P(x)\cdot P(y) pXY(x,y)=P(X=x,Y=y)=P(x)P(y)
边缘分布(marginal distribution)
只看单个特征 p Y ( y j ) = ∑ i p X Y ( x i , y j ) p_Y(y_j)=\sum\limits_ip_{XY}(x_i,y_j) pY(yj)=ipXY(xi,yj)
在这里插入图片描述

条件分布(conditional distribution)
p Y ∣ X = x ( y ) = P X Y ( x , y ) p X ( x )     p Y ∣ X = x ( y ) Y 的条件 P D F , P X Y ( x , y ) X 和 Y 的联合 P D F , p X ( x ) X 的边缘分布 p_{Y|X=x}(y)=\frac{P_{XY}(x,y)}{p_X(x)}~~~p_{Y|X=x}(y)Y的条件PDF,P_{XY}(x,y)X和Y的联合PDF,p_X(x)X的边缘分布 pYX=x(y)=pX(x)PXY(x,y)   pYX=x(y)Y的条件PDFPXY(x,y)XY的联合PDFpX(x)X的边缘分布
连续同样的公式,只是换做为密度函数

协方差(covariance)

C o v ( X , Y ) = ∑ ( x i − μ x ) ( y i − μ y ) n Cov(X,Y)=\frac{\sum(x_i-\mu_x)(y_i-\mu_y)}{n} Cov(X,Y)=n(xiμx)(yiμy)数据的趋势,概率相同的情况下除以n。
概率分布的协方差
V a r ( x ) = ∑ i = 1 N ( x i − μ x ) 2 ⋅ P ( x i ) Var(x)=\sum\limits^{N}_{i=1}(x_i-\mu_x)^2\cdot P(x_i) Var(x)=i=1N(xiμx)2P(xi)
C o v ( X , Y ) = ∑ p X Y ( x i , y i ) ( x i − μ x ) ( y i − μ y ) Cov(X,Y)=\sum p_{XY}(x_i,y_i)(x_i-\mu_x)(y_i-\mu_y) Cov(X,Y)=pXY(xi,yi)(xiμx)(yiμy)
C o v ( X , Y ) = E [ X Y ] − E [ X ] E [ Y ] Cov(X,Y)=\mathbb E[XY]-\mathbb E[X]\mathbb E[Y] Cov(X,Y)=E[XY]E[X]E[Y]
相关系数(correlation coefficient)
-1到1之间的,负相关是指的两个变量完全负相关,正相关是指的两个变量完全正相关,为0表示他们独立
c o r r e l a t i o n   c o e f f i c i e n t = C o v ( X , Y ) σ x ⋅ σ y = C o v ( X , Y ) V a r ( X ) ⋅ V a r ( Y ) correlation~coefficient=\frac{Cov(X,Y)}{\sigma_x\cdot \sigma_y}=\frac{Cov(X,Y)}{\sqrt{Var(X)}\cdot \sqrt{Var(Y)}} correlation coefficient=σxσyCov(X,Y)=Var(X) Var(Y) Cov(X,Y)

多元的高斯分布(multivariate gaussian distribution)

在这里插入图片描述
多元的高斯公式,推算没有明白。

总体和样本(population and sample)

总体:是想研究的具有共同行为的所有个体或元素的集合。N
样本:是用来对整个总体得出结论的总体的一个子集。n
n ∈ N n\in N nN
样本的均值 比列和方差(sample mean,proprotion and variance)
总体均值: μ 总体均值:\mu 总体均值:μ
样本均值: x ‾ 称为 X − b a r , 样本量越大,得到总体均值的估算就越好 样本均值 :\overline{x} 称为X-bar,样本量越大,得到总体均值的估算就越好 样本均值:x称为Xbar,样本量越大,得到总体均值的估算就越好
总体比列: p = number of items with a given characteristic (x) population(N) ,给定特征 x 的项目数量除以总人口 N 总体比列:p=\frac{\text{number of items with a given characteristic (x)}}{\text{population(N)}},给定特征x的项目数量除以总人口N 总体比列:p=population(N)number of items with a given characteristic (x),给定特征x的项目数量除以总人口N
样本比列: p ^ = sample proprotion 样本比列:\hat{p}= \text{sample proprotion} 样本比列:p^=sample proprotion
总体方差: V a r ( X ) = σ 2 = 1 N ∑ i = 1 N ( x − μ ) 2 , N 总体数量, μ 总体均值 总体方差:Var(X)=\sigma^2=\frac{1}{N}\sum\limits^{N}_{i=1}(x-\mu)^2,N总体数量,\mu总体均值 总体方差:Var(X)=σ2=N1i=1N(xμ)2,N总体数量,μ总体均值
样本方差: s 2 = ∑ i = 1 n ( x − x ‾ ) 2 n − 1      σ 2 ^ = V a r ( X ) ^ = ∑ i = 1 n ( x − x ‾ ) 2 n , n − 1 为了纠正预估的总体方差值 样本方差:s^2=\frac{\sum^n_{i= 1}(x-\overline{x})^2}{n-1}~~~~ \widehat{\sigma^2}= \widehat{Var(X)}=\frac{\sum\limits^n_{i=1}(x-\overline{x})^2}{n},n-1为了纠正预估的总体方差值 样本方差:s2=n1i=1n(xx)2    σ2 =Var(X) =ni=1n(xx)2n1为了纠正预估的总体方差值
大数定律(law of large numbers)
独立同分布 independent and identically distributed (i.i.d)
每次取值都是随机变量,而且服从同一分布。
1.样本必须随机从整体抽取(sample is randomly drawn)
2.样本大小必须够大(sample size must be sufficiently large)
3.个体观察必须独立(independent observations)
n → ∞        1 n ∑ i = 1 n X i → E [ X ] = μ n \rightarrow \infty~~~~~~ \frac{1}{n}\sum\limits_{i=1}^{n}X_i \rightarrow\mathbb E[X]=\mu n      n1i=1nXiE[X]=μ
n趋向于无穷大,样本均值就接近于总体均值。
中心极限定理(CLT cnetral limit theorem)
在n次独立的伯努利试验(如硬币投掷)中,成功的次数X服从二项分布 X ∼ B i n o m i a l ( n , p ) X\sim Binomial(n,p) XBinomial(n,p)
离散随机变量:硬币的正面的次数为X,n为次数。中正面概率为p,反面的概率为q = (1-p),单次试验 E [ X ] = 1 ⋅ p + 0 ⋅ q = p \mathbb E[X]=1\cdot p+0\cdot q=p E[X]=1p+0q=p ,
对于多次实验,总成功次数X是n次独立伯努利实验的和 X = X 1 + X 2 + X 3 + ⋯ + X n , 无论随机变量是否独立,期望的线性性质都成立: E [ X ] = E [ ∑ i = 1 n X i ] = ∑ i = 1 n E [ X i ] , 因为每次试验的期望 E [ X i ] = p , 所以期望值 E [ X ] = n p X=X_1+X_2+X_3+\cdots+X_n,无论随机变量是否独立,期望的线性性质都成立:\mathbb E[X]=E[\sum\limits^{n}_{i=1}Xi]=\sum\limits^{n}_{i=1} \mathbb E[X_i],因为每次试验的期望 E[X_i]=p,所以期望值\mathbb E[X]=np X=X1+X2+X3++Xn,无论随机变量是否独立,期望的线性性质都成立:E[X]=E[i=1nXi]=i=1nE[Xi],因为每次试验的期望E[Xi]=p,所以期望值E[X]=np
方差 v a r [ X ] = σ 2 = n p ( 1 − p ) var[X]=\sigma^2=np(1-p) var[X]=σ2=np(1p)
连续随机变量: Y n = 1 n ∑ i = 1 n X i , 期望值: E [ Y n ] = E [ 1 n ∑ i = 1 n X i ] = 1 n ∑ i = 1 n E [ X i ] 每个独立期望值一样所以 = 1 n n E [ X ] = E [ X ] Y_n=\frac{1}{n}\sum\limits^{n}_{i=1}X_i,期望值:\mathbb E[Y_n] = \mathbb E[\frac{1}{n}\sum\limits^{n}_{i=1}X_i]=\frac{1}{n}\sum\limits^{n}_{i=1}\mathbb E[X_i]每个独立期望值一样所以=\frac{1}{n}n\mathbb E[X]=\mathbb E[X] Yn=n1i=1nXi,期望值:E[Yn]=E[n1i=1nXi]=n1i=1nE[Xi]每个独立期望值一样所以=n1nE[X]=E[X]
方差: V a r ( Y n ) = V a r ( 1 n ∑ i = 1 n X i ) = 1 n 2 ∑ i = 1 n V a r ( X i ) = 1 n 2 n V a r ( X ) = V a r ( X ) n 方差:Var(Y_n) = Var(\frac{1}{n}\sum\limits^{n}_{i=1}X_i)=\frac{1}{n^2}\sum\limits^{n}_{i=1}Var(X_i)=\frac{1}{n^2}nVar(X)=\frac{Var(X)}{n} 方差:Var(Yn)=Var(n1i=1nXi)=n21i=1nVar(Xi)=n21nVar(X)=nVar(X)
一般来说需要30个变量n>=30,才能得到钟型分布。
个人理解,多次抽样计算均值 X ‾ \overline X X的分布服从正态分布,正态分布中心位置最大值。均值

A s    n → ∞    1 n ∑ i = 1 n X i − E [ X ] σ X n ∼ N ( 0 , 1 2 ) As\; n \rightarrow \infty\; \frac{\frac{1}{n}\sum^n_{i=1}X_i-\mathbb E[X]}{\sigma_X }\sqrt{n} \sim \mathcal N(0,1^2) AsnσXn1i=1nXiE[X]n N(0,12)
A s    n → ∞    ∑ i = 1 n X i − n E [ X ] n σ X ∼ N ( 0 , 1 2 ) As\; n \rightarrow \infty\; \frac{\sum^n_{i=1}X_i-n\mathbb E[X]}{\sqrt{n}\sigma_X } \sim \mathcal N(0,1^2) Asnn σXi=1nXinE[X]N(0,12)

点估计(point estimation)

最大似然估计(MLE maximum likelihood estimation)
伯努利
X = ( X 1 , ⋯   , X n ) X i ∼ i . i . d B e r n o u l l i ( p ) X=(X_1,\cdots,X_n)\\X_i\sim^{i.i.d} Bernoulli(p) X=(X1,,Xn)Xii.i.dBernoulli(p)
L i k e l i h o o d L ( p ; x ) = P p ( X = x ) = ∏ i = 1 n p X i ( x i ) = ∏ i = 1 n p x i ( 1 − p ) 1 − x i i f    x i = 1 , p [ x i ] ( 1 − p ) [ 1 − x i ] = p i f    x i = 0 , p [ x i ] ( 1 − p ) [ 1 − x i ] = 1 − p ∑ i = 1 n x i = s u c c e s s ,    n − ∑ i = 1 n x i = f a i l Likelihood \\L(p;x)=P_p(X=x)= \prod\limits_{i=1}^{n}p_{X_i}(x_i)=\prod\limits_{i=1}^{n}p^{x_i}(1-p)^{1-xi}\\if\;x_i=1,p^{[x_i]}(1-p)^{[1-x_i]}=p\\if\;x_i=0,p^{[x_i]}(1-p)^{[1-x_i]}=1-p\\\sum\limits_{i=1}^{n}x_i=success,\;n-\sum\limits_{i=1}^{n}x_i=fail LikelihoodL(p;x)=Pp(X=x)=i=1npXi(xi)=i=1npxi(1p)1xiifxi=1,p[xi](1p)[1xi]=pifxi=0,p[xi](1p)[1xi]=1pi=1nxi=success,ni=1nxi=fail
∏ i = 1 n p x i ( 1 − p ) 1 − x i = p ( ∑ i = 1 n x i ) ( 1 − p ) ( n − ∑ i = 1 n x i ) \prod\limits_{i=1}^{n}p^{x_i}(1-p)^{1-xi} =p^{(\sum\limits_{i=1}^{n}x_i)}(1-p)^{(n-\sum\limits_{i=1}^{n}x_i)} i=1npxi(1p)1xi=p(i=1nxi)(1p)(ni=1nxi)
L o g − l i k e l i h o o d 对数 l ( p ; x i ) = l o g ( p ( ∑ i = 1 n x i ) ( 1 − p ) ( n − ∑ i = 1 n x i ) ) = ∑ i = 1 n x i l o g ( p ) + ( n − ∑ i = 1 n x x i ) l o g ( 1 − p ) Log-likelihood对数\\ l(p;x_i)=log(p^{(\sum\limits_{i=1}^{n}x_i)}(1-p)^{(n-\sum\limits_{i=1}^{n}x_i)})=\sum\limits_{i=1}^{n}x_ilog(p)+(n-\sum\limits_{i=1}^{nx}x_i)log(1-p) Loglikelihood对数l(p;xi)=log(p(i=1nxi)(1p)(ni=1nxi))=i=1nxilog(p)+(ni=1nxxi)log(1p)
d d p ∑ i = 1 n x i l o g ( p ) + ( n − ∑ i = 1 n x x i ) l o g ( 1 − p ) = ∑ i = 1 n x i p + n − ∑ i = 1 n x i 1 − p ( − 1 ) = ∑ i = 1 n x i n = x ‾ \frac{d}{dp}\sum\limits_{i=1}^{n}x_ilog(p)+(n-\sum\limits_{i=1}^{nx}x_i)log(1-p)=\frac{\sum\limits_{i=1}^{n}x_i}{p}+\frac{n-\sum\limits_{i=1}^{n}x_i}{1-p}(-1)=\frac{\sum\limits_{i=1}^{n}x_i}{n}=\overline x dpdi=1nxilog(p)+(ni=1nxxi)log(1p)=pi=1nxi+1pni=1nxi(1)=ni=1nxi=x
p是单次成功的概率。x表示 n 次独立伯努利试验的观测结果, x i x_i xi是第i次的值0或1。
高斯
the best distribution is the one where the mean of the distribution is the mean of the sample。(最佳的分布是分布的均值等于样本的均值)
the best distribution is the one where the variance of the distribution is the variance of the sample。(最佳的分布是分布的方差等于样本的方差)
线性回归
在这里插入图片描述
利用高斯分布计算每个点的概率,求出最大值。

正则化(regularization)

修改损失函数并对过于复杂的模型进行惩罚(penalty|penallize)
模型: y = a n x n + a n − 1 x n − 1 + ⋯ + a 1 x + a 0 y=a_nx^n+a_{n-1}x^{n-1}+\cdots+a_1x+a_0 y=anxn+an1xn1++a1x+a0
对数损失: l l \mathcal{ll} ll
L2 正则化误差(除最后的常数项所有系数的平方相加): a n 2 + a n − 1 2 + ⋯ + a 1 2 a_n^2+a_{n-1}^2+\cdots+a_1^2 an2+an12++a12
正则化参数: λ \lambda λ
正则化误差: l l + λ ( a n 2 + a n − 1 2 + ⋯ + a 1 2 ) \mathcal{ll}+\lambda(a_n^2+a_{n-1}^2+\cdots+a_1^2) ll+λ(an2+an12++a12)

回归贝叶斯(back to bayesics)

频率派:
1.概率代表事件的长期频率
2. 似然的概念
3. 目标是找到生成观测数据的最大似然模型
贝叶斯派:
1.概率是事件发生的信念或确定
2.先验的概念
3.目标是基于观察然后更新对模型的先验信念

之前的点估计包括最大似然估计都是频率派。
最大后验估计 (MAP maximum a posteriori)
更新后的信念称为后验。
如果没有提出任何有意义的信念,MAP估计最总将执行频率统计。
先验更新(update prior)
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B)=\frac{P(B|A)P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)
P(A|B)后验:当事件B发生后A事件的信念。
P(B|A)事件A发生,B事件出现的似然。
P(A)先验:当事件B发生前A事件的信念。
P(B)=P(B|A)P(A)+P(B|A’)P(A’): 事件B在任何环境下的概率。
根据离散还是连续通用公式:
X,Y都是离散
P Y ∣ X = x ( y ) = P X ∣ Y = y ( x ) P Y ( y ) P X ( x ) P_{Y|X=x}(y)=\frac{P_{X|Y=y}(x)P_Y(y)}{P_X(x)} PYX=x(y)=PX(x)PXY=y(x)PY(y)
X,Y都是连续
f Y ∣ X = x ( y ) = f X ∣ Y = y ( x ) f Y ( y ) f X ( x ) f_{Y|X=x}(y)=\frac{f_{X|Y=y}(x)f_Y(y)}{f_X(x)} fYX=x(y)=fX(x)fXY=y(x)fY(y)
X连续Y 离散
P Y ∣ X = x ( y ) = f X ∣ Y = y ( x ) P Y ( y ) f X ( x ) P_{Y|X=x}(y)=\frac{f_{X|Y=y}(x)P_Y(y)}{f_X(x)} PYX=x(y)=fX(x)fXY=y(x)PY(y)
X离散Y 连续
f Y ∣ X = x ( y ) = P X ∣ Y = y ( x ) f Y ( y ) P X ( x ) f_{Y|X=x}(y)=\frac{P_{X|Y=y}(x)f_Y(y)}{P_X(x)} fYX=x(y)=PX(x)PXY=y(x)fY(y)
总结:

  1. 贝叶斯通过先验更新信念。
  2. 对于信息不足的先验MAP就等于MLE。
  3. 足够的数据,MLE和MAP估计通常会相同。
  4. 有限的数据情况下,有意义的先验会更好的预估结果。
  5. 错误的先验,错误的结论。

贝叶斯定理和正则化(bayes theorem and regularzation)
最大化模型的概率等同于最小化系数的平方和

置信区间(confidence interval)

误差边界(margin of error):均值两侧的距离。
置信水平(confidence level):样本均值落在误差边界内的概率,1-α。
显著性水平(significance level):样本均值落在误差边界之外的概率,用α表示一般设置为0.05。
置信区间公式: x ‾ ± margin of error \overline x \pm \text{margin of error} x±margin of error
当置信水平为95%的时候。置信区间有95%会包含总体均值。单一生成的置信区间,没办法确定是否包含总体均值,但是这样生 成的95%的置信区间通常都会包含总体均值。
置信区间范围的调整
置信区间是由样本均值和其每一边的误差边界组成。
置信水平:置信区间包含总体均值的概率(如:95%)
理想的情况下置信水平高,置信区间窄
大量的样本数据可以缩小置信区间 σ x ‾ = σ n , n 是样本的数量 \sigma_{\overline x}=\frac{\sigma}{\sqrt{n}},n是样本的数量 σx=n σ,n是样本的数量
降低置信水平也可以收缩置信区间(很少看见低于90%,95%是最常见的)
误差边界
总体数据是正态分布: p o p u l a t i o n : X ∼ N ( μ , σ 2 ) population:X\sim \mathcal N(\mu,\sigma^2) population:XN(μ,σ2)
样本均值也是正太分布: s a m p l e    m e a n : X ‾ ∼ N ( μ , σ 2 n ) sample\;mean:\overline X\sim \mathcal N(\mu,\frac{\sigma^2}{n}) samplemean:XN(μ,nσ2)
当n增加时样本均值接近整体均值的概率增加。

Z分数或Z统计量:距离均值若干个标准差的点。(比均值大两个标准差的点具有Z分数为2,小一个标准差的点具有Z分数为-1)
正太分布可以通过减去均值除以标准差转换为标准正态分布。
Z分布是均值为0,方差为1 X − μ σ = Z ∼ N ( 0 , 1 2 ) \frac{X-\mu}{\sigma}= Z\sim \mathcal N(0,1^2) σXμ=ZN(0,12)
Z分布:左临界值是 Z α / 2 Z_{\alpha/2} Zα/2,右临界值是 Z 1 − α / 2 Z_{1-\alpha/2} Z1α/2。当α显著性水平等于0.05时左临界值 Z α / 2 = Z .025 = − 1.96 Z_{\alpha/2}=Z_{.025}=-1.96 Zα/2=Z.025=1.96,右临界值 Z 1 − α / 2 = Z .975 = 1.96 Z_{1-\alpha/2}=Z_{.975}=1.96 Z1α/2=Z.975=1.96 当α显著性水平等于0.10时左临界值 Z α / 2 = Z .05 = − 1.65 Z_{\alpha/2}=Z_{.05}=-1.65 Zα/2=Z.05=1.65,右临界值 Z 1 − α / 2 = Z .95 = 1.65 Z_{1-\alpha/2}=Z_{.95}=1.65 Z1α/2=Z.95=1.65
非标准分布
总体的数据的两个临界值, μ − Z α / 2 ⋅ σ , μ + Z 1 − α / 2 ⋅ σ \mu-Z_{\alpha/2}\cdot \sigma,\mu+Z_{1-\alpha/2}\cdot \sigma μZα/2σ,μ+Z1α/2σ
样本数据 X ‾ ∼ N ( μ , σ 2 n ) , 标准误差:    σ X ‾ = σ n \overline X \sim \mathcal N(\mu,\frac{\sigma^2}{n}),标准误差:\;\sigma_{\overline X}=\frac{\sigma}{\sqrt n} XN(μ,nσ2),标准误差:σX=n σ
两个临界值, μ − Z α / 2 ⋅ σ / n , μ + Z 1 − α / 2 ⋅ σ / n \mu-Z_{\alpha/2}\cdot \sigma/\sqrt n,\mu+Z_{1-\alpha/2}\cdot \sigma/\sqrt n μZα/2σ/n ,μ+Z1α/2σ/n
找到置信区间
目标是找到总体均值的上下限。 l o w e r l i m i t < μ < u p p e r l i m i t lower limit<\mu<upper limit lowerlimit<μ<upperlimit
μ − Z 1 − α / 2 ⋅ σ / n < x ‾ < μ + Z 1 − α / 2 ⋅ σ / n \mu-Z_{1-\alpha/2}\cdot \sigma/\sqrt n<\overline x<\mu+Z_{1-\alpha/2}\cdot \sigma/\sqrt n μZ1α/2σ/n <x<μ+Z1α/2σ/n
转换不等式
用一个负数乘以一个不等式,符号要变方向。
X ‾ − Z 1 − α / 2 ⋅ σ / n < μ < X ‾ + Z 1 − α / 2 ⋅ σ / n \overline X-Z_{1-\alpha/2}\cdot \sigma/\sqrt n<\mu<\overline X+Z_{1-\alpha/2}\cdot \sigma/\sqrt n XZ1α/2σ/n <μ<X+Z1α/2σ/n
置信区间: x ‾ ± Z 1 − α / 2 ⋅ σ n \text{置信区间:}\overline x \pm Z_{1-\alpha/2}\cdot\frac{\sigma}{\sqrt{n}} 置信区间:x±Z1α/2n σ
在这里插入图片描述
不关心总体是什么分布,只要样本的数据足够,根据中心极值定理,样本均值将近似的服从正态分布

计算置信区间的步骤(confidence interval calculation steps)

一.找到样本均值
二.确定置信水平(1-α)
三.获取边界值( Z 1 − α / 2 Z_{1-\alpha/2} Z1α/2)
四.计算标准误差( σ n \frac{\sigma}{\sqrt n} n σ)
五.找到误差边界
六.样本均值加上和减去误差边界( x ‾ ± Z 1 − α / 2 ⋅ σ n \overline x \pm Z_{1-\alpha/2}\cdot\frac{\sigma}{\sqrt{n}} x±Z1α/2n σ
遵循假设条件
一 . 样本的随机性
二 .样本数量大于30 或者总体近似正态分布

计算需要的样本大小(calculation sample size)

根据误差边界的值计算需要多少的样本量
n > = ( Z ( α / 2 ) ⋅ σ M O E ) 2 n>=(\frac{Z_{(\alpha/2)\cdot\sigma}}{MOE})^2 n>=(MOEZ(α/2)σ)2

概率和置信区间的不同(difference between confidence and probability)

可以说置信区间包含总体参数的概率为95% ,不能说总体参数有95%的概率落在置信区间内。总体参数是固定未知的,不是一个随机变量。

未知标准差的情况(unknown standard deviation)

知道σ的情况下,置信区间的公式为: x ‾ ± Z 1 − α / 2 ⋅ σ n \overline x \pm Z_{1-\alpha/2}\cdot\frac{\sigma}{\sqrt{n}} x±Z1α/2n σ x ‾ − μ σ / n \frac{\overline x -\mu}{\sigma/\sqrt{n}} σ/n xμ正态分布抽样分布量。
不知道σ的情况下,使用s替换σ, x ‾ − μ s / n \frac{\overline x -\mu}{s/\sqrt{n}} s/n xμ这个量是从学生t分布(student’s t distribution)抽样得到,它的分布和正态分布相似只是两边尾部更加厚,在这里插入图片描述意味着更多的点在两边。
置信区间的公式改为,: x ‾ ± t 1 − α / 2 ⋅ s n \overline x \pm t_{1-\alpha/2}\cdot\frac{s}{\sqrt{n}} x±t1α/2n s

t分布的自由度通常与样本数量密切相关。在统计学中,t分布的自由度(degrees of freedom, df)通常等于样本数量减去1(df = n - 1),其中n是样本的大小。这个自由度参数决定了t分布的形状,随着自由度的增加,t分布会逐渐接近标准正态分布。
例如,如果你有一个包含30个观测值的样本,那么在使用t分布进行假设检验或构建置信区间时,自由度将是29(df = 30 - 1 = 29)。这个自由度用于查找t分布表中的临界值,以确定统计显著性或计算置信区间的范围。

比例的置信区间(confience intervals for proportion )

比例的置信区间 p ^ \hat p p^是样本计算的比例: confidence interval = p ^ ± margin of error \text{confidence interval} = \hat p \pm \text{margin of error} confidence interval=p^±margin of error
margin of error = Z 1 − α / 2 ⋅ p ^ ( 1 − p ^ ) n \text{margin of error} = Z_{1-\alpha/2}\cdot \sqrt{\frac{\hat p(1-\hat p)}{n}} margin of error=Z1α/2np^(1p^)

假设定义(deifning hypothesis)

​​假设检验(Hypothesis Testing)是一种判断对总体的某种信念真假的方法。
零假设(null hypothesis) H 0 H_0 H0 假设什么都没有发生
备择假设(竞争假设)(alternative hypothesis) H 1 H_1 H1
H 0 H_0 H0 H 1 H_1 H1重要特征他们是互斥的。
邮件为例,所有邮件我们假设是正常邮件(将正常邮箱误删除比将垃圾邮件放入收件箱还要糟糕),如果很多证据表明邮件是垃圾邮件,那么 H 0 H_0 H0将会被拒绝, H 1 H_1 H1将被接受为真。但相反的是如果没有足够的证据表明是垃圾邮件,可以拒绝 H 0 H_0 H0但是并不意味邮件是正常邮件。
错误的选择
H 0 H_0 H0为真时拒接了 H 0 H_0 H0,将正常邮件发送到垃圾箱,第一类错误或假阳性。
H 0 H_0 H0为假时不拒接 H 0 H_0 H0,将垃圾邮件发送到正常收件箱,第二类错误或假阴性。
第一类错误比第二类错误更严重。
在这里插入图片描述

能够容忍第一错误的最大概率多少? 最大第一类错误概率称为显著性水平α。范围0到1。如果为0,不管有什么证据(vidence)都会判断为正常邮件。如果为1,没收到正常邮件都会判断为垃圾邮件,都会犯第一类错误。
所以α的值不等于0的最小值,典型的考虑值时0.05,另一个时0.01。针对固定数量的样本过分降低第一类错误会使第二类错误增加。
α = m a x P ( T y p e I e r r o r )    可能犯第一类错误的最大概率 = m a x P ( R e j e c t H 0 ∣ H 0 )    零假设为真时拒绝 H 0 的最大概率 \alpha =maxP(Type I error)\;可能犯第一类错误的最大概率\\ =maxP(RejectH_0|H0)\;零假设为真时拒绝H_0的最大概率 α=maxP(TypeIerror)可能犯第一类错误的最大概率=maxP(RejectH0H0)零假设为真时拒绝H0的最大概率

左尾右尾双尾检验(right-tailed,left-tailed and two-tailed tests)

数据必须可靠(data be reliable) 每个样本必须代表(representative)总体,数据必须完全随机化(randomized),足够的样本的数量(一般大于等于30)。
在这里插入图片描述

p值(p-Value)

p-value:假设 H 0 H_0 H0为真,检验统计取得与观察值一样极端或更极端的值的概率
右尾检验:第一类错误的概率就是样本均值 第一类错误的概率小于显著性水平α=0.05。
p-value : P ( R e j e c t H 0 ∣ H 0 ) \text{p-value :} P(RejectH_0|H_0) p-value :P(RejectH0H0)
在这里插入图片描述
如果 p − v a l u e < α 拒绝 H 0 (接受 H 1 为真) p-value<\alpha 拒绝H_0(接受H_1 为真) pvalue<α拒绝H0(接受H1为真)
如果 p − v a l u e > α 不拒绝 H 0 p-value>\alpha 不拒绝H_0 pvalue>α不拒绝H0
在这里插入图片描述
使用标准Z分布:
X ‾ − μ σ / n \frac{\overline X-\mu}{\sigma/\sqrt n} σ/n Xμ

临界值(critical value)

样本的p值 = α,这个值就是临界值,取决于选择不同α值。
临界值通常称为 k α k_\alpha kα
在这里插入图片描述
1.可以预先定义临界值
2.对于给定样本,使用p-value和临界值都会得出相同的结论。
3.预先定义决策标准,一旦有数据就能做出决策。可以非常容易的找到第二类错误的概率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值