多维离散数据的分层贝叶斯隐马尔可夫模型
1. 引言
在众多领域中,一个基本问题是对给定的离散时间序列数据序列进行建模。这个问题广泛存在于控制系统、机器人技术、事件检测、手写识别以及蛋白质结构预测等不同领域。数据往往是表现出随机活动的多维变量,多维离散隐马尔可夫模型(HMMs)是解决这类问题的有力工具,其有效性已在众多研究中得到证实。
然而,如果数据中包含对隐藏状态依赖性较低的冗余组件,这些组件通常会对HMM的性能产生负面影响。为克服这一问题,需要一种量化这些组件冗余度(状态独立性)和/或减少其影响的方法。
本文描述了一种在分层贝叶斯框架下对HMM的扩展,用于处理这类数据序列。在这个扩展模型中,引入了共性超参数来描述不同隐藏状态之间发射概率的共性程度,并且每个超参数与数据的一个组件存在一一对应关系,这使得我们能够识别低依赖性组件并将其负面影响降至最低。
与其他贝叶斯HMM一样,扩展模型在学习和预测过程中需要进行复杂的积分,通常涉及后验分布。由于其固有的复杂性,这些积分的解析解往往难以处理或并非易事。因此,本文还描述了一种基于马尔可夫链蒙特卡罗(MCMC)方法的实现。
2. 相关工作
有研究考虑了几种特征选择方法,如判别特征分析、主成分分析和顺序搜索方法,并描述了一种快速特征选择算法。本文的方法可被视为一种基于隐藏状态依赖性的贝叶斯特征选择方案。
已有许多研究探讨了贝叶斯HMM及其实现,本文描述的模型是对这类贝叶斯HMM的扩展,用于处理包含冗余组件的离散多维数据。在贝叶斯神经网络(BNNs)领域,有一种确定多维(输入)数据冗余组件的成功方法,称为自动相关性确定(ARD)。虽然扩展HMM的结构与BNNs完全不同,但基本的分层贝叶斯概念有许多潜在的相似之处。
3. 模型规范
3.1 HMM拓扑结构
HMM的结构取决于所采用的特定拓扑和状态数量N。常用的拓扑包括“遍历”和“从左到右”,本文仅描述遍历拓扑。
3.2 数据和隐藏变量
在HMM框架中,需要考虑时间序列数据序列(观测数据序列)和隐藏变量序列。隐藏变量是一维变量,在可用的N个状态中取有限值,而数据是多维离散变量。
3.3 观测模型
考虑HMM的完整参数集θ,数据的概率由以下公式给出:
[
\begin{align
}
P(y|\theta)&=\sum_{z}P(y|z,\theta)P(z|\theta)\
P(y|z,\theta)&=\prod_{t = 1}^{T}P(o_t|q_t,b)\
P(z|\theta)&=P(q_1|c)\prod_{t = 2}^{T}P(q_t|q_{t - 1},a)
\end{align
}
]
其中,发射概率为:
[
P(o_t|q_t,b)=\prod_{k = 1}^{D}P(o_{t,k}|q_t,b_k)
]
隐藏变量转移概率和初始隐藏变量概率分别为:
[
\begin{align
}
P(q_t|q_{t - 1},a)&=a_{q_{t - 1},q_t}\
P(q_1|c)&=c_{q_1}
\end{align
}
]
3.4 参数的先验分布
在贝叶斯框架下,定义了观测模型(似然函数)和参数集的先验分布。为简单起见,许多贝叶斯HMM假设先验分布中的参数独立性,即:
[
P(\theta|\varphi)=P(a|\alpha)P(b|\beta)P(c|\gamma)
]
其中,(P(a|\alpha))、(P(b|\beta))和(P(c|\gamma))使用“自然共轭”狄利克雷先验分布定义。
3.5 超参数集的设置
与许多传统贝叶斯HMM不同,本文考虑对超参数向量进行重新参数化,并定义了重新参数化后的超参数的先验分布,以识别对状态依赖性较低的组件(冗余组件)。
重新参数化(\beta_{i,k}):
[
\beta_{i,k}=\lambda_k\eta_{i,k}
]
其中,(\lambda_k)是共性超参数,描述了不同隐藏状态下发射概率的共性程度;(\eta_{i,k})是共同形状超参数,描述了不同隐藏状态下发射概率的平均形状。
(\lambda_k)和(\eta_k)的先验分布:
- (\lambda_k)的先验分布使用伽马先验分布:
[
P(\lambda_k|\kappa,\omega)=\mathcal{G}(\lambda_k;\kappa,\omega)
]
- (\eta_k)的先验分布使用狄利克雷分布:
[
P(\eta_k|\eta_0)=\mathcal{D}(\eta_k;\eta_0)
]
以下是模型的图形表示:
graph LR
classDef obs fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
classDef unobs fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;
classDef fixed fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
q1(unobs q1)
q2(unobs q2)
qT(unobs qT)
o1(obs o1)
o2(obs o2)
oT(obs oT)
y(obs y)
c(fixed c)
a(fixed a)
z(unobs z)
theta(fixed theta)
phi(fixed phi)
alpha(fixed alpha)
gamma(fixed gamma)
b1(fixed b1)
b2(fixed b2)
bD(fixed bD)
lambda1(fixed lambda1)
lambda2(fixed lambda2)
lambdaD(fixed lambdaD)
eta1(fixed eta1)
eta2(fixed eta2)
etaD(fixed etaD)
q1 --> o1
q2 --> o2
qT --> oT
q1 --> q2
q2 --> qT
o1 --> y
o2 --> y
oT --> y
c --> q1
a --> q1 & q2 & qT
z --> y
theta --> y & z
phi --> theta
alpha --> a
gamma --> c
b1 --> o1
b2 --> o2
bD --> oT
lambda1 --> b1
lambda2 --> b2
lambdaD --> bD
eta1 --> b1
eta2 --> b2
etaD --> bD
4. 模型的贝叶斯学习
定义训练数据集Y为时间序列数据序列的集合,贝叶斯学习的目标是评估θ和φ的(联合)后验分布:
[
P(\theta,\varphi|Y)=\sum_{Z}P(\theta,\varphi,Z|Y)
]
其中,
[
P(\theta,\varphi,Z|Y)=\frac{P(Y|Z,\theta)P(Z|\theta)P(\theta|\varphi)P(\varphi)}{\sum_{Z}\int\int P(Y|Z,\theta)P(Z|\theta)P(\theta|\varphi)P(\varphi)d\theta d\varphi}
]
4.1 MCMC实现
由于方程中的积分复杂度高,没有封闭形式的解析解,因此采用蒙特卡罗方法从后验分布中生成样本。生成样本后,可使用以下公式近似后验分布:
[
P(\theta,\varphi|Y)\approx\frac{1}{R}\sum_{r = 1}^{R}\delta(\theta - \theta^{(r)},\varphi - \varphi^{(r)})
]
其中,(\delta(\cdot))是狄拉克δ函数,R是样本数量。
MCMC实现的步骤如下:
1.
初始化步骤
:通过采样初始化(\theta^{(0)})和(\varphi^{(0)})。
2.
MCMC步骤
:
- 生成Z的第g个样本。
- 使用吉布斯采样方法生成(\theta)的第g个样本。
- 使用Metropolis - Hastings方法生成(\varphi)的第g个样本。
3.
选择步骤
:选择样本集用于蒙特卡罗近似。
4.2 模型评估
引入适应度分数作为评估测试数据序列与训练模型之间拟合程度的指标:
[
Score = \log P(Y_{NEW}|Y)
]
其中,(P(Y_{NEW}|Y))是(条件)边际似然,可使用蒙特卡罗近似进行计算。
5. 实验
5.1 人工数据集实验
使用人工数据集评估扩展模型,该数据集包含作为冗余组件的状态独立变量。
-
目标HMM
:使用5状态遍历HMM生成多维数据序列,定义了隐藏变量转移参数和初始隐藏变量参数。
-
状态相关和状态独立组件
:考虑两种概率矩阵,分别对应状态相关和状态独立组件,并设置了5种不同组件数量的情况。
-
模型设置
:使用从目标HMM生成的各种数据集对扩展模型和传统贝叶斯HMM进行训练和测试,设置隐藏状态数量为5。
-
结果
:当所有组件都与状态相关时,扩展模型的性能略逊于传统模型;当训练数据集包含状态独立组件时,扩展模型的性能优于传统模型,表明扩展模型对状态独立组件具有鲁棒性。
| 情况 | 组件设置 | 扩展模型与传统模型得分差异 |
|---|---|---|
| (i) | (b_1^ = b_2^ =b_{DEP}^*) | 略低于传统模型 |
| (ii) | (b_1^ = b_2^ =b_{DEP}^ ,b_3^ =b_{IND}^*) | 优于传统模型 |
| (iii) | (b_1^ = b_2^ =b_{DEP}^ ,b_3^ =b_4^ =b_{IND}^ ) | 优于传统模型 |
| (iv) | (b_1^ = b_2^ =b_{DEP}^ ,b_3^ =b_4^ =b_5^ =b_{IND}^*) | 优于传统模型 |
| (v) | (b_1^ = b_2^ =b_{DEP}^ ,b_3^ =b_4^ =b_5^ =b_6^ =b_{IND}^ ) | 优于传统模型 |
5.2 足球数据集实验
使用包含额外无关组件的真实世界数据集验证扩展模型的性能,旨在展示模型通过共性超参数(\lambda_k)区分无关组件的能力。
-
目标数据序列
:使用足球比赛半场的27维时间序列数据,简化后使用包含6个选定组件和1个额外组件的序列。
-
选定和额外组件
:选定6个变量用于建模,并添加另一个变量作为无关组件。
-
模型设置
:将扩展模型中的所有组件离散化为10个符号,设置隐藏状态数量为10。
-
结果
:无关组件的共性超参数(\lambda_k)最大,表明可以使用超参数({\lambda_k})区分无关组件。
6. 实际事件检测应用
将扩展模型应用于体育视频中的事件检测,目标是从数据序列中检测目标事件,如开球、角球、任意球、掷界外球和球门球。
使用从7场半场比赛视频中提取的球员位置数据进行建模,训练传统和扩展HMM。以角球事件为例,扩展模型的预测结果显示其比传统模型产生的误报更少,表明扩展模型能够减少给定组件中冗余组件的负面影响。
综上所述,扩展的贝叶斯HMM在处理包含冗余组件的数据时具有合理的性能。在后续的研究中,可以进一步探索该模型在更多领域的应用,以及对模型进行优化以提高其性能和效率。例如,可以尝试不同的超参数设置和特征选择方法,以更好地适应不同的数据集和任务需求。同时,可以研究如何将该模型与其他机器学习算法相结合,以提升整体的事件检测能力。
多维离散数据的分层贝叶斯隐马尔可夫模型
7. 提案分布
提案分布可以是满足特定条件的任何概率分布,其设计会强烈影响效率。当分别对每个变量应用Metropolis - Hastings方法时,一个有前景的方法是使用完全条件(后验)分布作为提案分布 (Q(\cdot))。然而,在模型中很难将 (\lambda_k) 和 (\eta_k) 的完全条件分布用作它们的提案分布,因为这些分布不属于任何具有已知直接采样方法的标准概率密度函数族。因此,我们使用基于完全条件分布信息设计的提案分布。
7.1 (\lambda_k) 的提案分布
(\lambda_k) 的完全条件分布为:
[
P(\lambda_k|{\lambda_{k’}}
{k’\neq k},{\eta
{k’}}_{k’\neq k},\theta,\eta_k,b_k,Z,Y)
]
应用对数正态分布 (LN(\cdot)),完全条件分布可以近似为:
[
P(\lambda_k|\eta_k,b_k)\approx LN(\lambda_k;\mu_k(\lambda_k^{(g - 1)}),\nu_k(\lambda_k^{(g - 1)}))
]
其中:
[
\begin{align
}
\mu_k(\lambda_k^{(g - 1)})&=\lambda_k^{(g - 1)}+\frac{l_k’(\lambda_k^{(g - 1)})}{l_k’‘(\lambda_k^{(g - 1)})}\
\nu_k(\lambda_k^{(g - 1)})&=-\frac{1}{l_k’‘(\lambda_k^{(g - 1)})}\
l_k(\lambda_k)&=\log P(\lambda_k|\eta_k,b_k)
\end{align
}
]
(l_k’(\cdot)) 是 (l_k(\cdot)) 的一阶导数,(l_k’‘(\cdot)) 是其二阶导数。然而,当先前的样本 (\log\lambda_k^{(g - 1)}) 远离 (P(\lambda_k|\eta_k,b_k)) 的峰值时,这种近似无效。为了提高低接受率,我们使用:
[
Q(\lambda_k)=LN(\lambda_k;\mu_k(\lambda_k^{(g - 1)}),\nu_k(\lambda_k^{(g - 1)})+\varepsilon)
]
在实验中,我们设置 (\varepsilon = 0.2),这在初步实验中给出了合理且稳定的性能。
7.2 (\eta_k) 的提案分布
(\eta_k) 的完全条件分布为:
[
P(\eta_k|{\lambda_{k’}}
{k’\neq k},{\eta
{k’}}_{k’\neq k},\theta,\lambda_k,b_k,Z,Y)
]
由于难以用基本方法近似该分布,我们假设该分布的中心可以大致用估计器 (\hat{\eta}_k(b_k)) 近似。考虑到这一假设和实现的简单性,我们使用以 (\hat{\eta}_k(b_k)) 为中心的狄利克雷提案分布:
[
Q(\eta_k)=D(\eta_k;\hat{\eta}_k(b_k),\nu)
]
在本研究中,我们设置 (\nu = 100),这在多次初步数值实验中产生了合理的性能。
以下是提案分布设计的流程图:
graph TD
A[开始] --> B[确定完全条件分布]
B --> C{分布是否属于标准族?}
C -- 是 --> D[使用完全条件分布作为提案分布]
C -- 否 --> E[基于完全条件分布信息设计提案分布]
E --> F{是否为 \(\lambda_k\)?}
F -- 是 --> G[使用对数正态近似并调整]
F -- 否 --> H[使用狄利克雷分布近似]
D --> I[结束]
G --> I
H --> I
8. 总结与展望
本文提出了一种用于多维离散数据序列的扩展贝叶斯隐马尔可夫模型,该模型能够处理包含冗余组件的数据。通过引入共性超参数,模型可以识别并减少低依赖性组件的负面影响。
以下是扩展模型与传统模型的对比总结:
| 对比项 | 扩展贝叶斯HMM | 传统贝叶斯HMM |
| ---- | ---- | ---- |
| 超参数设置 | 对超参数向量重新参数化 | 多数组件固定为1.0 |
| 处理冗余组件 | 可识别并减少负面影响 | 受冗余组件影响较大 |
| 实验性能 | 在含冗余组件数据中表现更好 | 在不含冗余组件数据中表现较好 |
在实验部分,通过人工数据集和足球数据集验证了扩展模型的有效性和鲁棒性。在人工数据集实验中,当数据包含状态独立组件时,扩展模型的性能明显优于传统模型;在足球数据集实验中,模型能够通过共性超参数区分无关组件。在实际事件检测应用中,扩展模型在体育视频事件检测中减少了误报,展示了其在实际场景中的应用潜力。
未来的研究方向可以包括:
1.
模型优化
:尝试不同的超参数设置和特征选择方法,进一步提高模型的性能和效率。
2.
多领域应用
:探索该模型在更多领域的应用,如医疗数据处理、金融市场分析等。
3.
算法结合
:研究如何将该模型与其他机器学习算法相结合,提升整体的事件检测和数据分析能力。
总之,扩展的贝叶斯隐马尔可夫模型为处理多维离散数据中的冗余组件提供了一种有效的解决方案,具有广阔的应用前景和研究价值。
超级会员免费看
2856

被折叠的 条评论
为什么被折叠?



