1、收集到的时间序列数据
a1 a2 a3 … an
假定有10条这样的数据,每个数据22个时间点
2、一次实验的定义
(1) 一次实验= 原始时间序列数据 + 选取的观测时间点
比如: 我站在时间点2的位置看整条时间序列数据
a1 我站的位置 a3 … an
上面的原始数据,总共有10*22个实验
(2) 随机变量
我站的位置叫做at
前面那个位置叫做at-1
后面那个位置叫做at+1
(3) 随机变量的统计量
E(at)
3、应用
n-gram语言模型
P(wt+1=中国|wt=我爱你) 这个概率如何理解?
假定有10句话,每句话10个词
那么,我们的样本一共有10*10个实验,每个实验具有不同的观测时间点
首先,看看观测时间点是 “我爱你”的有几个实验 numa
在看,观测时间点是“我爱你” && 观测时间点下一个是“中国” 的实验有几个 numb
那么,P(wt+1=中国|wt=我爱你) =numb/numa
时间序列实验设计与应用

被折叠的 条评论
为什么被折叠?



