如何定义时间序列数据的样本?(思路终于通顺了)

时间序列实验设计与应用

1、收集到的时间序列数据

a1 a2 a3 … an

假定有10条这样的数据,每个数据22个时间点

2、一次实验的定义

(1) 一次实验= 原始时间序列数据 + 选取的观测时间点

比如: 我站在时间点2的位置看整条时间序列数据

a1 我站的位置 a3 … an

上面的原始数据,总共有10*22个实验

(2) 随机变量

我站的位置叫做at

前面那个位置叫做at-1

后面那个位置叫做at+1

(3) 随机变量的统计量

E(at

3、应用

n-gram语言模型
P(wt+1=中国|wt=我爱你) 这个概率如何理解?
假定有10句话,每句话10个词
那么,我们的样本一共有10*10个实验,每个实验具有不同的观测时间点
首先,看看观测时间点是 “我爱你”的有几个实验 numa
在看,观测时间点是“我爱你” && 观测时间点下一个是“中国” 的实验有几个 numb
那么,P(wt+1=中国|wt=我爱你) =numb/numa

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值