数据分析
1 基本概念
1.1 变量
1.1.1 分类变量
无序分类变量
用于说明事物类别,无次序,例如性别、民族等。
有序分类变量
用于说明事物类别,有次序,例如满意度分为满意、一般、不满意,客户等级等。
1.1.2 数值型变量
连续型变量
取值范围是一个区间,连续型变量可以取到区间中的任意值。
离散型变量
取值范围是由有限个数值组成的。
1.2 随机变量
对随机事件进行量化,分为离散型随机变量和连续型随机变量。
1.3 概率
概率用于描述某个随机事件发生的可能性,介于0到1之间。
如果随机事件发生的概率小于等于0.05,则认为该随机事件是一个小概率事件,基本不可能发生。
1.4 随机抽样
随机抽取一部分个体进行观察和测量的过程称为随机抽样。随机抽样中,每个个体是否会被选中在抽样进行前是不可知的,而其入选的可能性是可知的,即随机不是随便。
1.5 总体参数和统计量
总体参数:刻画总体特征的指标称为总体参数。
统计量:刻画样本特征的指标称为统计量。
总体参数一般都是不可知的,经常会通过样本统计量去估算总体参数。
1.6 抽样误差
由随机抽样造成的样本统计量与总体指标之间的差异称为抽样误差。
尽管一次抽样中产生的抽样误差是随机的,但是抽样误差遵循一定的分布规律,这种规律称为抽样分布。
2 离散型概率分布
随机变量出现的概率存在一定的规律,这个规律叫做概率分布。
离散型随机变量的概率分布包括二项分布、泊松分布等。
2.1 伯努利分布
伯努利分布(Bernoulli Distribution),也称为两点分布或0-1分布。如果随机事件只有两个可能结果,随机变量遵从伯努利分布。伯努利试验是只能有两种可能的结果的单次随机试验。
将离散型随机变量X的两个可能结果分别记为1和0。
P(X=1)=pP(X=1) = pP(X=1)=p
P(X=0)=1−pP(X=0) = 1-pP(X=0)=1−p
0≤p≤10\leq p \leq10≤p≤1
则称随机变量X服从参数为p的伯努利分布。
若令q=1−pq=1-pq=1−p,则X的概率函数可写为:
f(x∣p)={pxq1−xx=0,10x≠0,1
f(x|p) =
\begin{cases}
p^xq^{1-x} & \text{x}=0, 1 \\
0 & \text{x} \neq 0, 1
\end{cases}
f(x∣p)={pxq1−x0x=0,1x=0,1
2.2 二项分布
如果某个试验是一个伯努利试验,将这个试验独立重复地进行n次,则将这一串重复的独立试验称为n重伯努利试验。
二项分布(Binomial Distribution)是n重伯努利试验成功次数的离散概率分布。
在n次独立重复的伯努利试验中,设事件A在每次试验中发生的概率为p,用X表示n重伯努利试验中事件A发生的次数,则X的可能取值为0, 1, … n,事件 {X=k} (0 ≤ k ≤ n) 表明n次试验中事件A恰好发生k次,随机变量X的离散概率分布服从二项分布。
随机变量服从参数为n和p的二项分布,记为
P{X=k}=Cknpk(1−p)n−k
P\lbrace X=k \rbrace = C^n_kp^k(1-p)^{n-k}
P{X=k}=Cknpk(1−p)n−k
Excel操作
BINOM.DIST(number_s,trials,probability_s,cumulative)
Number_s 必需,试验的成功次数。
Trials 必需,独立试验次数。
Probability_s 必需,每次试验成功的概率。
cumulative 必需,决定函数形式的逻辑值。 如果为TRUE,则 BINOM.DIST 返回累积分布函数,即最多存在 number_s 次成功的概率;如果为FALSE,则返回概率密度函数,即存在 number_s 次成功的概率。
2.3 泊松分布
泊松分布(Poisson Distribution),用来描述在指定时间范围内或在指定的面积内某一事件出现的次数的分布情况。
P(X=k)=λk!e−λ,k=0,1,2...
P(X=k)=\frac{\lambda}{k!}e^{-\lambda}, k=0,1,2...
P(X=k)=k!λe−λ,k=0,1,2...
其中,参数λ\lambdaλ是单位时间或单位面积内随机事件的平均发生次数。
Excel操作
POISSON.DIST(x,mean,cumulative)
X 必需,事件数。
Mean 必需,期望值。
cumulative 必需,逻辑值,确定所返回的概率分布的形式。如果 cumulative 为 TRUE,则 POISSON.DIST 返回的是发生的随机事件数在零(含零)和 x(含 x)之间的累积泊松概率;如果为 FALSE,则 POISSON 返回的是发生的事件数正好是 x 的泊松概率密度函数。
n重伯努利实验中,如果成功的概率很小,实验次数很大时,二项分布可近似等于泊松分布。
3 连续型概率分布
3.1 正态分布
正态分布(Normal Distribution),也成为高斯分布(Gaussian distribution)。
若随机变量X服从一个数学期望为μμμ,方差为σ2σ^2σ2的正态分布,记为X∼N(μ,σ2)X \sim N(μ,σ^2)X∼N(μ,σ2),其概率密度函数中期望值μμμ决定了正态分布的位置,标准差σσσ决定了正态分布的幅度。
当μ=0,σ=1μ = 0,σ = 1μ=0,σ=1时的正态分布是标准正态分布。
标准化变换
X∼N(μ,σ2)
X \sim N(μ, σ^2)
X∼N(μ,σ2)
Y=X−μσ∼N(0,1)
Y = \frac{X-μ}{σ} \sim N(0, 1)
Y=σX−μ∼N(0,1)
标准正态分布表中列出了标准正态曲线从−∞-∞−∞到XXX(当前值)范围内的面积比例。服从标准正态分布就可以通过查询标准正态分布表直接计算出原正态分布的概率值。
一维正态分布概率密度函数
随机变量XXX服从正态分布,X∼N(μ,σ2)X \sim N(μ, σ^2)X∼N(μ,σ2)
f(x)=12πexp(−(x−μ)22σ2)
f(x)=\frac{1}{\sqrt{2\pi}}exp(-\frac{(x-μ)^2}{2σ^2})
f(x)=2π1exp(−2σ2(x−μ)2)
μ=0,σ=1μ = 0,σ = 1μ=0,σ=1的正态分布是标准正态分布。
f(x)=12πexp(−x22)
f(x)=\frac{1}{\sqrt{2\pi}}exp(-\frac{x^2}{2})
f(x)=2π1exp(−2x2)
Excel操作
NORMDIST(x,mean,standard_dev,cumulative)
X 必需,需要计算其分布的数值。
Mean 必需,分布的算术平均值。
standard_dev 必需,分布的标准偏差。
cumulative 必需,决定函数形式的逻辑值。如果 cumulative 为 TRUE,则 NORMDIST 返回累积分布函数;如果为 FALSE,则返回概率密度函数。
3.2 抽样分布
抽样分布也称统计量分布、随机变量函数分布,是指样本估计量的分布。
以样本平均数为例,它是总体平均数的一个估计量,如果按照相同的样本容量,相同的抽样方式,反复地抽取样本,每次可以计算一个平均数,所有可能样本的平均数所形成的分布,就是样本平均数的抽样分布。
统计推断
统计推断是通过样本推断总体的统计方法。
抽样误差
由样本导致的样本均数与相应的总体均数在数值上的差异。
3.3 大数定律和中心极限定理
3.3.1 大数定律
大数定律:在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。
大数定律是是一种描述当试验次数很大时所呈现的概率性质的定律。
3.3.2 中心极限定理
中心极限定理:如果样本量足够大,则变量均值的采样分布将近似于正态分布,而与该变量在总体中的分布无关。