一、基础知识
1. 大数定律
(1)切比雪夫大数定律
设
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots,X_n
X1,X2,⋯,Xn是一列相互独立的随机变量,他们分别存在期望
E
(
x
k
)
E(x_k)
E(xk)和方差
D
(
x
k
)
D(x_k)
D(xk)。若存在常数
C
C
C使得
D
(
x
k
)
≤
C
(
k
=
1
,
2
,
⋯
,
n
)
D(x_k)\le C(k=1,2,\cdots,n)
D(xk)≤C(k=1,2,⋯,n),则对任意小的正数
ε
\varepsilon
ε有下式成立:
lim
n
→
∞
P
{
∣
1
n
∑
k
=
1
n
x
k
−
1
n
∑
k
=
1
n
E
(
x
k
)
∣
<
ε
}
=
1
\mathop {\lim }\limits_{n \to \infty } P\left\{ {\left| {\frac{1}{n}\sum\limits_{k = 1}^n {{x_k} - \frac{1}{n}\sum\limits_{k = 1}^n {E({x_k})} } } \right| < \varepsilon } \right\} = 1
n→∞limP{∣∣∣∣∣n1k=1∑nxk−n1k=1∑nE(xk)∣∣∣∣∣<ε}=1
该定理的意思是随着样本容量
n
n
n的增加,样本平均数将接近于总体平均数。这就是统计推断中依据样本平均数估计总体平均数的理论依据所在。特别需要注意的是,切比雪夫大数定理并未要求
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots,X_n
X1,X2,⋯,Xn同分布,相较于后面介绍的伯努利大数定律和辛钦大数定律更具一般性。
(2)伯努利大数定律
设
μ
n
\mu_n
μn是
n
n
n次独立试验中事件A发生的次数,且事件A在每次试验中发生的概率为
p
p
p,则对任意正数
ε
\varepsilon
ε有下式成立:
lim
n
→
∞
P
{
∣
μ
n
n
−
p
∣
<
ε
}
=
1
\mathop {\lim }\limits_{n \to \infty } P\left\{ {\left| {\frac{{{\mu _n}}}{n} - p} \right| < \varepsilon } \right\} = 1
n→∞limP{∣∣∣nμn−p∣∣∣<ε}=1
该定律是切比雪夫大数定律的特例,其含义是:当
n
n
n足够大时,事件A出现的频率将几乎接近于其发生的概率,即频率的稳定性。
该定理也是抽样调查中用样本参数去估计总体参数的理论依所在。
(3)辛钦大数定律
设
X
1
,
X
2
,
⋯
,
X
n
⋯
X_1,X_2,\cdots,X_n\cdots
X1,X2,⋯,Xn⋯为独立同分布的随机变量序列,若他们的数学期望存在且为
μ
\mu
μ,则对任意的
ε
>
0
\varepsilon>0
ε>0有下式成立:
lim
n
→
∞
P
{
∣
1
n
∑
i
=
1
n
X
i
−
μ
∣
<
ε
}
=
1
\mathop {\lim }\limits_{n \to \infty } P\left\{ {\left| {\frac{1}{n}\sum\limits_{i = 1}^n {{X_i}} - \mu } \right| < \varepsilon } \right\} = 1
n→∞limP{∣∣∣∣∣n1i=1∑nXi−μ∣∣∣∣∣<ε}=1
注:辛钦大数定律是我们最常见的大数定律,切比雪夫大数定律最具有一般性。
2. 中心极限定理
(1)独立同分布的中心极限定理
设 X 1 , X 2 , ⋯ X n , ⋯ X_1,X_2,\cdots X_n,\cdots X1,X2,⋯Xn,⋯独立同分布的随机变量,并且具有有限的数学期望和方差: E ( X i ) = μ , D ( X i ) = σ 2 ( i = 1 , 2 ⋯ ) E(X_i)=\mu,D(X_i)=\sigma^2(i=1,2\cdots) E(Xi)=μ,D(Xi)=σ2(i=1,2⋯),则对任意 x x x,分布函数 F n ( x ) = P { ∑ i = 1 n ( X i − μ ) σ n ≤ x } = P { ∑ i = 1 n ( X i ) − n μ σ n ≤ x } {F_n}(x) = P\left\{ {\frac{{\sum\nolimits_{i = 1}^n {\left( {{X_i} - \mu } \right)} }}{{\sigma \sqrt n }} \le x} \right\}=P\left\{ {\frac{{\sum\nolimits_{i = 1}^n {\left( {{X_i} } \right)-n \mu} }}{{\sigma \sqrt n }} \le x} \right\} Fn(x)=P{σn∑i=1n(Xi−μ)≤x}=P{σn∑i=1n(Xi)−nμ≤x}
满足
lim
n
→
∞
F
n
(
x
)
=
lim
n
→
∞
P
{
∑
i
=
1
n
(
X
i
)
−
n
μ
σ
n
≤
x
}
=
1
2
π
∫
−
∞
x
e
−
t
2
2
d
t
=
Φ
(
x
)
\mathop {\lim }\limits_{n \to \infty } {F_n}(x) = \mathop {\lim }\limits_{n \to \infty } P\left\{ {\frac{{\sum\nolimits_{i = 1}^n {\left( {{X_i}} \right)} - n\mu }}{{\sigma \sqrt n }} \le x} \right\} = \frac{1}{{\sqrt {2\pi } }}\int_{ - \infty }^x {{e^{\frac{{ - {t^2}}}{2}}}} dt=\Phi (x)
n→∞limFn(x)=n→∞limP{σn∑i=1n(Xi)−nμ≤x}=2π1∫−∞xe2−t2dt=Φ(x)
该定理的意思是:当
n
n
n很大时,随机变量
Y
n
=
∑
i
=
1
n
(
X
i
−
μ
)
σ
n
Y_n={\frac{{\sum\nolimits_{i = 1}^n {\left( {{X_i} - \mu } \right)} }}{{\sigma \sqrt n }}}
Yn=σn∑i=1n(Xi−μ)近似地服从标准正态分布
N
(
0
,
1
)
N(0,1)
N(0,1)。因此,当
n
n
n很大时,
∑
i
=
1
n
X
i
=
σ
n
Y
n
+
n
μ
\sum\limits_{i = 1}^n {{X_i}} = \sigma \sqrt n {Y_n} + n\mu
i=1∑nXi=σnYn+nμ近似地服从正态分布
N
(
n
μ
,
n
σ
2
)
N(n\mu,n\sigma^2)
N(nμ,nσ2)。该定理是中心极限定理最简单又最常用的一种形式,在实际工作中,只要
n
n
n足够大,便可以把独立同分布的随机变量之和当作正态变量。这种方法在数理统计中用得很普遍,当处理大样本时,它是重要工具。
(1)不同分布的中心极限定理
设
X
1
,
X
2
,
⋯
X
n
X_1,X_2,\cdots X_n
X1,X2,⋯Xn是一列独立随机变量,它们的概率密度分别为
f
x
k
(
x
)
f_{x_k}(x)
fxk(x),并有
E
(
X
k
)
=
μ
k
,
D
(
X
k
)
=
σ
k
2
,
(
k
=
1
,
2
,
.
.
.
)
E(X_k)=\mu_k,D(X_k)=\sigma_k^2 ,(k=1,2,...)
E(Xk)=μk,D(Xk)=σk2,(k=1,2,...),令
B
n
2
=
∑
i
=
1
n
σ
k
2
Y
n
=
∑
k
=
1
n
X
k
−
∑
k
=
1
n
μ
k
B
n
B_n^2 = \sum\limits_{i = 1}^n {\sigma _k^2} {\kern 20pt} {Y_n} = \frac{{\sum\nolimits_{k = 1}^n {{X_k}} - \sum\nolimits_{k = 1}^n {{\mu _k}} }}{{{B_n}}}
Bn2=i=1∑nσk2Yn=Bn∑k=1nXk−∑k=1nμk
若对任意正数
τ
\tau
τ有:
lim
n
→
∞
1
B
n
2
∑
k
=
1
n
∫
∣
x
−
μ
k
>
τ
B
n
∣
(
x
−
μ
k
)
2
f
x
k
(
x
)
d
x
=
0
\mathop {\lim }\limits_{n \to \infty } \frac{1}{{B_n^2}}\sum\limits_{k = 1}^n {\int\limits_{\left| {x - {\mu _k} > \tau {B_n}} \right|} {{{\left( {x - {\mu _k}} \right)}^2}{f_{{x_k}}}(x)} dx = 0}
n→∞limBn21k=1∑n∣x−μk>τBn∣∫(x−μk)2fxk(x)dx=0
则对任意
x
x
x,随机变量
Y
n
Y_n
Yn的分布函数
F
n
(
x
)
F_n(x)
Fn(x),满足:
lim
n
→
∞
F
n
(
x
)
=
lim
n
→
∞
P
{
∑
k
=
1
n
X
k
−
∑
k
=
1
n
μ
k
B
n
≤
x
}
=
1
2
π
∫
−
∞
x
e
−
t
2
2
d
t
\mathop {\lim }\limits_{n \to \infty } {F_n}(x) = \mathop {\lim }\limits_{n \to \infty } P\left\{ {\frac{{\sum\nolimits_{k = 1}^n {{X_k}} - \sum\nolimits_{k = 1}^n {{\mu _k}} }}{{{B_n}}} \le x} \right\} = \frac{1}{{\sqrt {2\pi } }}\int_{ - \infty }^x {{e^{\frac{{ - {t^2}}}{2}}}} dt
n→∞limFn(x)=n→∞limP{Bn∑k=1nXk−∑k=1nμk≤x}=2π1∫−∞xe2−t2dt
该定理说明:所研究的随机变量如果是有大量独立的而且均匀的随机变量相加而成,那么它的分布将近似于正态分布。
二、引言
在随机过程(一)中,我们主要介绍了泊松过程,让我们先回顾一下泊松过程主要知识点:
(1)泊松过程中事件发生的次数是独立平稳的:独立意味着两个不相交的时间段内,事件发生的次数是相互独立的;平稳意味着某个时间段事件发生次数以固定的比例随该时间段的长度而增加,该比例即为泊松过程的参数
λ
\lambda
λ,也表示单位时间内事件发生的次数;
(2)在很小的时间
h
→
0
h \to 0
h→0内,发生一次事件的概率为:
P
{
N
(
h
)
=
1
}
=
λ
h
+
o
(
h
)
P\{ N(h) = 1\} = \lambda h + o(h)
P{N(h)=1}=λh+o(h);
(3)在很小的时间
h
→
0
h \to 0
h→0内,发生两次及以上次事件的概率为:
P
{
N
(
h
)
⩾
2
}
=
o
(
h
)
P\{ N(h) \geqslant 2\} = o(h)
P{N(h)⩾2}=o(h);
(4)任意两次事件间隔时间服从参数为
λ
\lambda
λ的指数分布,且任意两个间隔时间是相互独立的;
(5)在时间
t
t
t内事件发生的次数服从参数为
λ
t
\lambda t
λt的泊松分布。
如果对各种分布不是很熟悉,请参阅详细介绍各种分布。
现在让我们考虑一个计数过程
{
N
(
t
)
,
t
⩾
0
}
\left\{ {N(t),t \geqslant 0} \right\}
{N(t),t⩾0},该过程的一个特点是:两次事件之间的间隔时间是独立同分布的,且分布函数为
F
(
⋅
)
F(\cdot)
F(⋅)。注意到这个特点和上面的第(4)点很像,唯一的不同是上面第(4)点要求服从指数分布,而我们要求它服从任意分布
F
(
⋅
)
F(\cdot)
F(⋅)即可,这相当于是对第(4)点做一个推广。我们称之这样的计数过程为更新过程(renewal process),下面我们将给出更新过程的正式定义:
定义: 设
{
X
n
,
n
=
1
,
2
,
…
}
\left\{X_n,n=1,2,\ldots\right\}
{Xn,n=1,2,…}是一系列非负随机变量且具有共同分布
F
F
F,其中
X
n
X_n
Xn表示第
n
−
1
n-1
n−1个事件与第
n
n
n个事件之间的时间。(注意,
X
n
X_n
Xn是非负变量,因此会有
X
n
=
0
X_n=0
Xn=0,为了严谨性,设有
F
(
0
)
=
P
(
X
n
=
0
)
<
1
F(0)=P(X_n=0)<1
F(0)=P(Xn=0)<1)。令
S
n
=
∑
i
=
1
n
X
i
,
n
≥
1
S_n=\sum\limits_{i=1}^{n}X_i,n\ge1
Sn=i=1∑nXi,n≥1,
S
0
=
0
S_0=0
S0=0,因此
S
n
S_n
Sn就是第
n
n
n个事件发生的时刻。记到时间刻
t
t
t时事件发生的次数为
N
(
t
)
N(t)
N(t),则称计数过程
N
(
t
)
=
s
u
p
{
n
:
S
n
≤
t
}
(1)
N(t)=sup\left\{n:S_n \le t \right\} \tag1
N(t)=sup{n:Sn≤t}(1)
为更新过程。
看着上面的定义,估计很多人还是不明白到底什么是更新过程,因此我们举个例子让大家直观的感受一下更新过程。假设你的工作内容是专门维护某台机器,该机器元件A一旦损坏,你就立马去更换一个新的(此处假设你是非常厉害的,更换所花费的时间为0),每个A元件的工作寿命都服从同一个分布,现在问你经过
t
t
t时间以后,你总共更换了多少个A元件?这就是更新过程!A元件发生损坏即对应定义中的事件发生,事件发生后你会立马进行更新,然后等待下个事件的发生。由于我们前面已经假设你是个超人(更新一个元件的时间是0),因此我们可以将“更新”和“事件”这两个词进行相同意思的混用。现在,相信大家对更新过程有了一个较为清晰初步的理解。
有了更新过程的定义,一个自然而然的问题是,我们需要对这个过程研究什么?我们当然不能停留在更新了几次这种简单的问题上,而是应该透过现象去看一些本质的问题。
三、 N ( t ) N(t) N(t)的分布及相关极限定理
研究
N
(
t
)
N(t)
N(t)的分布也即是说研究在有限的时间
t
t
t内,更新(也可以用“事件”代替)发生的次数大概是个什么情况。研究这点有什么用呢?以上面的更换元件为例,你要是能了解
N
(
t
)
N(t)
N(t)的分布情况,对于每次采购多少个元件是不是很有帮助。
在正式推导
N
(
t
)
N(t)
N(t)的分布之前,我们可以有个直觉上的猜测:那就是有限的时间内更新肯定不是无数次的!下面进行数学上的推导。
根据更新过程的定义:假设从0到
t
t
t时间内,若事件发生了
n
n
n次(即
N
(
t
)
=
n
N(t)=n
N(t)=n),则要么第
n
n
n次事件刚好发生在
t
t
t时刻(即
S
n
=
t
S_n=t
Sn=t),要么在
t
t
t时刻之前发生了第
n
n
n次事件(即
S
n
≤
t
S_n\le t
Sn≤t);若
[
0
−
t
]
[0-t]
[0−t]时间内事件发生的次数大于
n
n
n次(即
N
(
t
)
>
n
N(t)>n
N(t)>n),则同样有在
t
t
t时刻之前发生了第
n
n
n次事件(即
S
n
≤
t
S_n\le t
Sn≤t);我们将上述情况合并可得:
N
(
t
)
≥
n
⇔
S
n
≤
t
(2)
N(t) \ge n{\kern 3pt} \Leftrightarrow {\kern 3pt} {S_n} \le t \tag2
N(t)≥n⇔Sn≤t(2)
由(2)式可以推出下面的概率:
P
{
N
(
t
)
=
n
}
=
P
{
N
(
t
)
≥
n
}
−
P
{
N
(
t
)
≥
n
+
1
}
=
P
{
S
n
≤
t
}
−
P
{
S
n
+
1
≤
t
}
(3)
\begin{aligned}P\left\{N(t) = n \right\}&=P\left\{N(t)\ge n \right\}-P\left\{N(t)\ge n+1 \right\}\\ &=P\left\{S_n\le t \right\}-P\left\{S_{n+1}\le t \right\} \end{aligned} \tag3
P{N(t)=n}=P{N(t)≥n}−P{N(t)≥n+1}=P{Sn≤t}−P{Sn+1≤t}(3)
还记得我们前面在定义中有
X
i
X_i
Xi是独立同分布的,分布函数为
F
F
F,
S
n
=
∑
i
=
1
n
X
i
S_n=\sum\limits_{i=1}^nX_i
Sn=i=1∑nXi,根据概率论知识(相互独立的随机变量
X
X
X和
Y
Y
Y,其和
Z
=
X
+
Y
Z=X+Y
Z=X+Y的分布是他们的卷积,即
F
Z
=
F
X
∗
F
Y
F_Z=F_X*F_Y
FZ=FX∗FY),
S
n
S_n
Sn的分布函数
F
n
F_n
Fn为
n
n
n个
F
F
F的卷积,因此有:
P
{
N
(
t
)
=
n
}
=
P
{
S
n
≤
t
}
−
P
{
S
n
+
1
≤
t
}
=
F
n
(
t
)
−
F
n
+
1
(
t
)
(4)
P\left\{N(t) = n \right\}=P\left\{S_n\le t \right\}-P\left\{S_{n+1}\le t \right\}=F_n(t)-F_{n+1}(t)\tag4
P{N(t)=n}=P{Sn≤t}−P{Sn+1≤t}=Fn(t)−Fn+1(t)(4)
(4)式即是
N
(
t
)
N(t)
N(t)的分布函数。
现在我们令
N
(
t
)
N(t)
N(t)的均值为
m
(
t
)
m(t)
m(t),即
m
(
t
)
=
E
[
N
(
t
)
]
m(t)=E[N(t)]
m(t)=E[N(t)],称之为更新函数,则有如下命题:
命题1:
m
(
t
)
=
∑
n
=
1
∞
F
n
(
t
)
m(t) = \sum\limits_{n = 1}^\infty {{F_n}(t)}
m(t)=n=1∑∞Fn(t)
证明:令
I
n
I_n
In来表示第
n
n
n次的事件是否发生在
[
0
,
t
]
[0,t]
[0,t]时间内,如果是其值为1,否则为0,故有
I
n
=
{
1
第
n
次
事
件
发
生
在
[
0
,
t
]
内
0
其
他
{I_n} = \left\{ \begin{array}{l} 1{\kern 5pt} 第n次事件发生在[0,t]内\\ 0{\kern 5pt} 其他 \end{array} \right.
In={1第n次事件发生在[0,t]内0其他
此时,我们可以将该计数过程写成
N
(
t
)
=
∑
n
=
1
∞
I
n
N(t)=\sum\limits_{n=1}^{\infty}I_n
N(t)=n=1∑∞In形式,所以有:
E
[
N
(
t
)
]
=
E
[
∑
n
=
1
∞
I
n
]
=
∑
n
=
1
∞
E
[
I
n
]
=
∑
n
=
1
∞
(
P
{
I
n
=
1
}
∗
1
+
P
{
I
n
=
0
}
∗
0
)
=
∑
n
=
1
∞
P
{
I
n
=
1
}
=
∑
n
=
1
∞
P
{
S
n
≤
t
}
=
∑
n
=
1
∞
F
n
\begin{aligned} E[N(t)] &= E[\sum\limits_{n = 1}^\infty {{I_n}} ] = \sum\limits_{n = 1}^\infty {E[{I_n}]} = \sum\limits_{n = 1}^\infty {(P\{ {I_n} = 1\} *1 + P\{ {I_n} = 0\} *0)} \\ &= \sum\limits_{n = 1}^\infty {P\{ {I_n} = 1\} } = \sum\limits_{n = 1}^\infty {P\{ {S_n} \le t\} } = \sum\limits_{n = 1}^\infty {{F_n}} \end{aligned}
E[N(t)]=E[n=1∑∞In]=n=1∑∞E[In]=n=1∑∞(P{In=1}∗1+P{In=0}∗0)=n=1∑∞P{In=1}=n=1∑∞P{Sn≤t}=n=1∑∞Fn
注意,因为
I
n
I_n
In是非负的,所以第二个等号是合理的。
命题2: 对所有的
0
≤
t
<
∞
,
都
有
m
(
t
)
<
∞
0\le t < \infty ,都有m(t) <\infty
0≤t<∞,都有m(t)<∞成立。
证明:在更新过程的定义中随机变量
X
n
X_n
Xn表示第
n
−
1
n-1
n−1个事件和第
n
n
n个事件之间的时间间隔,且有
P
{
X
n
=
0
}
<
1
P\left\{X_n=0\right\}<1
P{Xn=0}<1,根据概率的连续性肯定存在一个
α
\alpha
α使得
P
{
X
n
=
α
}
>
0
P\left\{X_n=\alpha \right\}>0
P{Xn=α}>0。现在我们定义一个与
X
n
X_n
Xn相关的更新过程
Y
n
Y_n
Yn,它满足:
Y
n
=
{
0
X
n
<
α
α
X
n
≥
α
{Y_n} = \left\{ \begin{array}{l} 0{\kern 5pt} X_n < \alpha \\ \alpha{\kern 5pt} X_n \ge \alpha \end{array} \right.
Yn={0Xn<ααXn≥α
令
T
n
=
∑
i
=
1
n
Y
n
T_n=\sum\limits_{i=1}^nY_n
Tn=i=1∑nYn,则
T
n
T_n
Tn 表示第
n
n
n个
Y
Y
Y事件发生的时刻,具体来说就是从任意一个事件
X
X
X发生开始算起,在接下来的
α
\alpha
α时间段内,事件
X
X
X没有再一次发生,那么事件
Y
Y
Y肯定在第
α
\alpha
α时刻发生。为了便于理解,我们用下图来描述这两个更新过程:

记事件
X
X
X的更新过程为
N
(
t
)
=
s
u
p
{
n
:
S
n
≤
t
}
N(t)=sup\left\{n:S_n \le t \right\}
N(t)=sup{n:Sn≤t},事件
Y
Y
Y的更新过程为
N
ˉ
(
t
)
=
s
u
p
{
n
:
T
n
≤
t
}
\bar N(t)=sup\left\{n:T_n \le t \right\}
Nˉ(t)=sup{n:Tn≤t},由
Y
n
Y_n
Yn的定义和上面的图可知,事件
Y
Y
Y的发生时间肯定在
n
α
,
n
=
0
,
1
,
⋯
n\alpha,n=0,1,\cdots
nα,n=0,1,⋯ 处,而在
n
α
n\alpha
nα 时事件
Y
Y
Y是否发生的概率为
P
{
X
n
≥
α
}
P\left\{X_n\ge\alpha \right\}
P{Xn≥α}。
现在我们换个角度来思考事件
Y
Y
Y的更新过程
N
ˉ
(
t
)
\bar N(t)
Nˉ(t):每隔
α
\alpha
α时间,就需要看事件
Y
Y
Y是否发生,而是否发生的概率是固定的
P
{
X
n
≥
α
}
P\left\{X_n\ge\alpha \right\}
P{Xn≥α},是不是觉得这个过程有点熟悉?你猜的没错,它就是几何分布的随机变量(不熟悉请参阅详细介绍各种分布)!
既然知道
N
ˉ
(
t
)
\bar N(t)
Nˉ(t)是服从参数为
P
{
X
n
≥
α
}
P\left\{X_n\ge\alpha \right\}
P{Xn≥α}几何分布,那么问题就简单了,根据几何分布的特点易知:
E
[
N
ˉ
(
t
)
]
=
1
P
{
X
n
≥
t
}
≤
t
α
+
1
P
{
X
n
≥
t
}
<
∞
E[\bar N(t)]=\frac{1}{P\left\{ X_n \ge t \right \}}\le \frac{\frac{t}{\alpha}+1}{P\left\{ X_n \ge t \right \}}<\infty
E[Nˉ(t)]=P{Xn≥t}1≤P{Xn≥t}αt+1<∞
而
Y
n
≤
X
n
Y_n\le X_n
Yn≤Xn 意味着
N
ˉ
(
t
)
≥
N
(
t
)
\bar N(t)\ge N(t)
Nˉ(t)≥N(t)(这点也可以从上面的图中看出),所以肯定有
m
(
t
)
<
∞
m(t) <\infty
m(t)<∞成立。
注:命题2说明在有限的时间内,更新次数不会是无限的。
有限的时间内更新次数不是无限的,那么无限的时间呢?我们不做证明的给出结论:无限时间会导致无限的更新次数,即
N
(
∞
)
=
∞
N(\infty)=\infty
N(∞)=∞。
现在我们关心另外一个问题,随着时间的推移,更新速度是怎样的?先给出结论:
命题3: 假设
X
n
X_n
Xn 的均值为
μ
\mu
μ,即
E
[
X
n
]
=
∫
0
∞
x
d
F
(
x
)
=
μ
E[X_n]=\int_0^\infty {xdF(x)} =\mu
E[Xn]=∫0∞xdF(x)=μ,则有当
t
→
∞
t\to\infty
t→∞时,
N
(
t
)
t
\frac{N(t)}{t}
tN(t)以概率1收敛于与
1
μ
\frac{1}{\mu}
μ1,即
N
(
t
)
t
→
1
μ
\frac{N(t)}{t}\to \frac{1}{\mu}
tN(t)→μ1
证明:根据更新过程的定义,若在
t
t
t时间内,总共发了
n
n
n次事件,即
N
(
t
)
=
n
N(t)=n
N(t)=n,那么
S
n
S_n
Sn表示第
n
n
n个事件发生的时刻,且有
S
n
≤
t
S_n\le t
Sn≤t,很明显,
S
n
+
1
>
t
S_{n+1}>t
Sn+1>t。我们将不等式
S
n
≤
t
<
S
n
+
1
S_n\le t<S_{n+1}
Sn≤t<Sn+1两边同时除以
N
(
t
)
N(t)
N(t)得:
S
n
N
(
t
)
≤
t
N
(
t
)
<
S
n
+
1
N
(
t
)
=
S
n
+
1
N
(
t
)
+
1
N
(
t
)
+
1
N
(
t
)
\frac{S_n}{N(t)}\le \frac{t}{N(t)}<\frac{S_{n+1}}{N(t)}=\frac{S_{n+1}}{N(t)+1}\frac{N(t)+1}{N(t)}
N(t)Sn≤N(t)t<N(t)Sn+1=N(t)+1Sn+1N(t)N(t)+1
根据概率论中的强大数定律有:
t
→
∞
时
有
S
n
N
(
t
)
→
μ
t \to \infty 时有 \frac{S_n}{N(t)}\to \mu
t→∞时有N(t)Sn→μ
同理可得
S
n
+
1
N
(
t
)
+
1
→
μ
\frac{S_{n+1}}{N(t)+1}\to \mu
N(t)+1Sn+1→μ,而
N
(
∞
)
+
1
N
(
∞
)
=
1
\frac{N(\infty)+1}{N(\infty)}=1
N(∞)N(∞)+1=1,根据夹逼定理可知命题成立。
注:命题3说明在从长远看,更新过程的平均更新速度是趋向于稳定的,其更新发生的平均速率是
1
μ
\frac{1}{\mu}
μ1。
定理1(基本更新定理)当
t
→
∞
t\to\infty
t→∞时有:
m
(
t
)
t
→
1
μ
\frac{m(t)}{t}\to \frac{1}{\mu}
tm(t)→μ1
我们先来说说该定理和命题3的区别,命题3说的平均更新速率依概率1收敛于
1
/
μ
1/\mu
1/μ,而定理1说的是平均更新速率的期望(因为
m
(
t
)
=
E
[
N
(
t
)
]
m(t)=E[N(t)]
m(t)=E[N(t)])收敛于
1
/
μ
1/\mu
1/μ。咋一看,平均更新速率已经收敛了稳定了,那么它的期望也应该是收敛且稳定于同样一个值。但事实上两者并一定相等。下面举个例子:
设
U
U
U是区间
(
0
,
1
)
(0,1)
(0,1)上的均匀分布的随机变量,而随机变量
Y
n
,
n
≥
1
Y_n,n\ge1
Yn,n≥1的定义如下:
Y
n
=
{
0
U
>
1
/
n
n
U
≤
1
/
n
{Y_n} = \left\{ \begin{array}{l} 0{\kern 5pt} U>1/n\\ n{\kern 5pt} U\le 1/n \end{array} \right.
Yn={0U>1/nnU≤1/n
因为
n
→
∞
n\to\infty
n→∞时有
1
/
n
→
0
1/n\to0
1/n→0,此时
U
>
1
/
n
U>1/n
U>1/n的概率为1,因此有
Y
n
→
0
Y_n\to0
Yn→0,然而,它的期望为
E
[
Y
n
]
=
0
∗
P
(
U
>
1
/
n
)
+
n
∗
P
(
U
≤
1
/
n
)
=
n
∗
1
/
n
=
1
E\left[ Y_n\right]=0*P(U>1/n)+n*P(U\le1/n)=n*1/n=1
E[Yn]=0∗P(U>1/n)+n∗P(U≤1/n)=n∗1/n=1,即期望恒等于1。
关于定理1的证明,其和命题3的证明类似,即利用夹逼定理。此处不进行详细证明了,如有需要请留言,本人再补充。
注:定理1说明随着时间的推移,更新过程的平均更新速度的期望是趋向于稳定的,其更新发生的期望平均速率是
1
μ
\frac{1}{\mu}
μ1。
定理2 若更新过程中来到的间隔时间的均值
μ
\mu
μ和方差
σ
2
\sigma^2
σ2有限,那么当
t
→
∞
t\to\infty
t→∞时有:
P
{
N
(
t
)
−
t
/
μ
σ
t
/
μ
3
<
y
}
→
1
2
π
∫
−
∞
y
e
−
x
2
/
2
d
x
P\left\{\frac{N(t)-t/\mu}{\sigma\sqrt{t/\mu^3}}<y\right\}\to\frac{1}{\sqrt{2\pi}}\int_{-\infty}^y{e^{-x^2/2}}dx
P{σt/μ3N(t)−t/μ<y}→2π1∫−∞ye−x2/2dx
证明:令
r
t
=
y
σ
t
/
μ
3
+
t
/
μ
r_t=y\sigma\sqrt{t/\mu^3}+t/\mu
rt=yσt/μ3+t/μ,则有:
P
{
N
(
t
)
−
t
/
μ
σ
t
/
μ
3
<
y
}
=
P
{
N
(
t
)
<
r
t
}
=
P
{
S
r
t
>
t
}
=
P
{
S
r
t
−
r
t
μ
σ
r
t
>
t
−
r
t
μ
σ
r
t
}
=
P
{
S
r
t
−
r
t
μ
σ
r
t
>
−
y
(
1
+
y
σ
t
μ
)
−
1
/
2
}
\begin{aligned}P\left\{\frac{N(t)-t/\mu}{\sigma\sqrt{t/\mu^3}}<y\right\}&=P\left\{N(t)<r_t\right\}=P\left\{S_{r_t}>t \right\}\\ &=P\left\{ {\frac{{{S_{{r_t}}} - {r_t}\mu }}{{\sigma \sqrt {{r_t}} }}>\frac{{t - {r_t}\mu }}{{\sigma \sqrt {{r_t}} }}} \right\}\\ &=P\left\{ \frac{{{S_{{r_t}}} - {r_t}\mu }}{{\sigma \sqrt {{r_t}} }}>-y\left(1+\frac{y\sigma}{\sqrt{t\mu}}\right)^{-1/2} \right\} \end{aligned}
P{σt/μ3N(t)−t/μ<y}=P{N(t)<rt}=P{Srt>t}=P{σrtSrt−rtμ>σrtt−rtμ}=P{σrtSrt−rtμ>−y(1+tμyσ)−1/2}
上式中,当
t
→
∞
t\to \infty
t→∞时
r
t
→
∞
r_t\to \infty
rt→∞,而
S
r
t
S_{r_t}
Srt表示
r
t
r_t
rt个间隔时间的和,因此根据独立同分布的中心极限定理可知随机变量
S
r
t
−
r
t
μ
σ
r
t
\frac{{{S_{{r_t}}} - {r_t}\mu }}{{\sigma \sqrt {{r_t}} }}
σrtSrt−rtμ近似地服从
N
(
0
,
1
)
N(0,1)
N(0,1)的正态分布。又因为当
t
→
∞
t\to \infty
t→∞时有
−
y
(
1
+
y
σ
t
μ
)
−
1
/
2
→
−
y
-y\left(1+\frac{y\sigma}{\sqrt{t\mu}}\right)^{-1/2}\to -y
−y(1+tμyσ)−1/2→−y,故有:
P
{
N
(
t
)
−
t
/
μ
σ
t
/
μ
3
<
y
}
→
1
2
π
∫
−
y
∞
e
−
x
2
2
d
x
P\left\{\frac{N(t)-t/\mu}{\sigma\sqrt{t/\mu^3}}<y\right\}\to \frac{1}{{\sqrt {2\pi } }}\int_{ - y}^\infty {{e^{\frac{{ - {x^2}}}{2}}}} dx
P{σt/μ3N(t)−t/μ<y}→2π1∫−y∞e2−x2dx
又因为
∫
−
y
∞
e
−
x
2
2
d
x
=
∫
−
∞
y
e
−
x
2
2
d
x
\int_{ - y}^\infty {{e^{\frac{{ - {x^2}}}{2}}}} dx = \int_{ - \infty }^y {{e^{\frac{{ - {x^2}}}{2}}}} dx
∫−y∞e2−x2dx=∫−∞ye2−x2dx
故定理得证!
从严格意义上来说,上述证明是有瑕疵的,因为中心极限定理中要求
r
t
r_t
rt是一个整数(回顾第一部分中的独立同分布的中心极限定理的介绍),但本证明中
r
t
=
y
σ
t
/
μ
3
+
t
/
μ
r_t=y\sigma\sqrt{t/\mu^3}+t/\mu
rt=yσt/μ3+t/μ却并不能保证是整数!
注:定理1说明在很长时间以后,总的更新次数将近似服从正态分布,分布的均值为
t
/
μ
t/\mu
t/μ,方差为
t
σ
2
/
μ
3
t\sigma^2/\mu^3
tσ2/μ3。
四、关键更新定理
1.格点
如果一个随机变量
X
X
X只取某个非负变量
d
d
d的整数倍,则称
X
X
X是格点,能满足该性质的最大的
d
d
d称之为
X
X
X的周期。同时,我们也称
X
X
X的分布函数
F
F
F是格点的。
举个例子:调度站中的公交车根据人流情况决定发车间隔时间,但都是以5分钟的倍数进行发车,即要么每隔5分钟发车,要么隔10分钟,15分钟,20分钟,最多隔30分钟。令随机变量
X
X
X为发车间隔时间,则
X
X
X可能的取值为
{
5
,
10
,
15
,
20
,
25
,
30
}
\left\{5,10,15,20,25,30\right\}
{5,10,15,20,25,30},可以发现
X
X
X的取值是1的倍数,也是5的倍数,所以
X
X
X是格点的,其周期为5。
2. 布莱克威尔定理(Blackwell’s Theorem)
定理2 (i)如果
F
F
F 不是格点的,则对一切
a
≥
0
a\ge0
a≥0,
t
→
∞
t\to\infty
t→∞时有:
m
(
t
+
a
)
−
m
(
t
)
→
a
/
μ
m(t+a)-m(t)\to a/\mu
m(t+a)−m(t)→a/μ
(ii)如果
F
F
F 是格点的,周期为
d
d
d,则
n
→
∞
n\to\infty
n→∞时有:
E
[
在
时
刻
n
d
更
新
的
次
数
]
→
d
/
μ
E[在时刻nd更新的次数]\to d/\mu
E[在时刻nd更新的次数]→d/μ
从直观上去理解该定理,回顾我们前面的定理1,该定理说的是在经过无穷的时间后,更新过程趋向于稳定,其更新发生的期望速率为
1
/
μ
1/\mu
1/μ,那可以很容易推测出当
F
F
F不是格点时,在
a
a
a这个时间段内,更新次数的期望是
a
/
μ
a/\mu
a/μ。但如果
F
F
F是格点的,此时更新只会发生在
d
d
d的整数倍的时间点上,因此更新次数只会依赖于这个时间段内有多少个
n
d
nd
nd的时间点,故关于格点情形下的极限应该是在时间为
n
d
nd
nd时的极限。根据基本更新定理(即定理1),其极限必然为
d
/
μ
d/\mu
d/μ。
3. 关键更新定理
定理3 若
F
F
F不是格点的,且若
h
(
t
)
h(t)
h(t)直接黎曼可积,则有:
lim
t
→
∞
∫
0
t
h
(
t
−
x
)
d
m
(
x
)
=
∫
0
+
∞
h
(
t
)
μ
d
t
\mathop {\lim }\limits_{t \to \infty}\int_{ 0}^{t}h(t-x)dm(x)=\int_{0}^{+\infty}\frac{h(t)}{\mu}dt
t→∞lim∫0th(t−x)dm(x)=∫0+∞μh(t)dt
其中,
m
(
x
)
=
∑
n
=
1
∞
F
n
(
x
)
m(x)=\sum\limits_{n=1}^\infty F_n(x)
m(x)=n=1∑∞Fn(x)而
μ
=
∫
0
+
∞
F
ˉ
(
t
)
d
t
\mu=\int_0^{+\infty}\bar F(t)dt
μ=∫0+∞Fˉ(t)dt。
注:黎曼可积简单的来说就是用“横切法”来求积分,而我们常用的是“竖切法”,具体的请自行查阅相关资料。下面给出函数
h
h
h直接黎曼可积的一个充分条件:
(i)对一切
t
≥
0
t\ge0
t≥0有
h
(
t
)
≥
0
h(t)\ge0
h(t)≥0;
(ii)
h
(
t
)
h(t)
h(t)非增;
(iii)
∫
0
∞
h
(
t
)
d
t
<
∞
\int_0^\infty h(t)dt<\infty
∫0∞h(t)dt<∞。
这个定理看起来就让人摸不着头脑,不知道它想讲什么。我们可以这样想,上面的等式左边是一个求极限的过程,等式右边是一个求积分的过程,这说明这个定理的作用就是你在求某些极限很困难的时候,可以将其转化为求积分,这样问题就会简单一些。但可惜的是,本人能力有限,无法给出该定理的严格证明过程。如果有会证明该定理的人,求不吝赐教!
五、延迟更新过程
还记得我们一开始在介绍更新过程时提到的其与泊松过程的区别么?泊松过程的间隔时间是服从指数分布,更新过程的间隔时间是服从任意同一分布。现在我们把这样假设再放宽一些:即第一次的间隔时间和其余的间隔时间服从不同的分布,这就是延迟更新过程!想一下,因为从第二次间隔开始,后面的每次间隔都是服从同一个分布,这不就是前面所定义的更新过程么,只是这个更新过程从第一次更新发生之后开始算起(也即是从第二个间隔时间开始算起),故我们称之为“延迟更新过程”。下面给出数学意义上的严格定义:
设
{
X
n
,
n
=
1
,
2
,
…
}
\left\{X_n,n=1,2,\ldots\right\}
{Xn,n=1,2,…}是一系列非负随机变量,
X
1
X_1
X1具有分布
G
G
G,而
X
n
(
n
>
1
)
X_n(n>1)
Xn(n>1)具有分布
F
F
F。其中
X
n
X_n
Xn表示第
n
−
1
n-1
n−1个事件与第
n
n
n个事件之间的时间。令
S
n
=
∑
i
=
1
n
X
i
,
n
≥
1
S_n=\sum\limits_{i=1}^{n}X_i,n\ge1
Sn=i=1∑nXi,n≥1,
S
0
=
0
S_0=0
S0=0,因此
S
n
S_n
Sn就是第
n
n
n个事件发生的时刻。称计数过程
N
D
(
t
)
=
s
u
p
{
n
:
S
n
≤
t
}
(1)
N_D(t)=sup\left\{n:S_n \le t \right\} \tag1
ND(t)=sup{n:Sn≤t}(1)
为一般或延迟更新过程。
很明显,当
G
G
G和
F
F
F相等时,即为更新过程。因此,我们可以根据更新过程的一些性质来猜测延迟更新过程的一些性质。
P
{
N
D
(
t
)
=
n
}
=
P
{
S
n
≤
t
}
−
P
{
S
n
+
1
≤
t
}
=
G
∗
F
n
−
1
(
t
)
−
G
∗
F
n
(
t
)
P\left\{N_D(t)=n\right\}=P\left\{S_n\le t\right\}-P\left\{S_{n+1}\le t\right\}=G*F_{n-1}(t)-G*F_n(t)
P{ND(t)=n}=P{Sn≤t}−P{Sn+1≤t}=G∗Fn−1(t)−G∗Fn(t)
令
m
D
(
t
)
=
E
{
N
D
(
t
)
}
m_D(t)=E\left\{N_D(t)\right\}
mD(t)=E{ND(t)},则有
m
D
(
t
)
=
∑
n
=
1
∞
G
∗
F
n
−
1
(
t
)
m_D(t)=\sum\limits_{n=1}^\infty G*F_{n-1}(t)
mD(t)=n=1∑∞G∗Fn−1(t)。下面直接给出延迟更新过程的相关命题与定理,其中
μ
=
∫
0
+
∞
x
d
F
(
x
)
\mu=\int_0^{+\infty}xdF(x)
μ=∫0+∞xdF(x):
(1)当
t
→
∞
t\to\infty
t→∞时,以概率1有:
N
D
(
t
)
t
→
1
μ
\frac{N_D(t)}{t}\to \frac{1}{\mu}
tND(t)→μ1
该点对应更新过程中的命题3。
(2)当
t
→
1
t\to1
t→1时有:
m
D
(
t
)
t
→
1
μ
\frac{m_D(t)}{t}\to \frac{1}{\mu}
tmD(t)→μ1
该点对应更新过程中的定理1,即基本更新定理。
(3)若
F
F
F不是格点的,则当
t
→
∞
t\to\infty
t→∞时:
m
D
(
t
+
a
)
−
m
D
(
t
)
→
a
μ
m_D(t+a)-m_D(t)\to\frac{a}{\mu}
mD(t+a)−mD(t)→μa
(4)若
F
F
F与
G
G
G是格点的,周期为
D
D
D,则当
t
→
∞
t\to\infty
t→∞时:
E
[
在
时
刻
n
d
的
更
新
次
数
]
→
d
μ
E\left[在时刻nd的更新次数\right] \to \frac{d}{\mu}
E[在时刻nd的更新次数]→μd
(3)、(4)两点对应更新过程中的布莱克威尔定理。
(5)若
F
F
F不是格点的,
μ
<
∞
\mu<\infty
μ<∞且
h
h
h直接黎曼可积,则:
∫
0
+
∞
h
(
t
−
x
)
d
m
D
(
x
)
→
∫
0
+
∞
h
(
t
)
μ
d
t
\int_0^{+\infty}h(t-x)dm_D(x)\to \int_0^{+\infty}\frac{h(t)}{\mu}dt
∫0+∞h(t−x)dmD(x)→∫0+∞μh(t)dt
该点对应更新过程中的定理3,即关键更新定理。
——————————————————————————————————
总结:更新过程比较重要的知识点就是基本更新定理、关键更新定理、布莱克威尔定理。然而,据本人粗略了解,更新过程在经管领域应用并不是很多,所以本人对其的理解也比较浅显,希望有问题大家可以相互探讨一下,也请大家不吝赐教!
本文详细解析了大数定律(切比雪夫、伯努利、辛钦定律)及其在中心极限定理中的应用,重点讲解了更新过程的概念、N(t)的分布及极限定理,包括基本更新定理、关键更新定理和布莱克威尔定理,涉及非格点与格点分布的差异。
5343

被折叠的 条评论
为什么被折叠?



